出席2024聲網(wǎng)RTE大會,Soul App展現(xiàn)多模態(tài)大模型情感交互能力

10月25日~26日,由聲網(wǎng)和RTE開發(fā)者社區(qū)聯(lián)合主辦的RTE 2024實時互聯(lián)網(wǎng)大會在北京舉行。在AI技術(shù)突破式發(fā)展引發(fā)各行業(yè)革新浪潮的當下,此次大會主題聚焦“AI 愛”,匯聚行業(yè)代表企業(yè)、技術(shù)大咖、專家學(xué)者等嘉賓,共同深度探討AI為互聯(lián)網(wǎng)生態(tài)帶來的新發(fā)展。作為AI在社交領(lǐng)域落地的前沿探索者,Soul App與通義千問、MiniMax、智譜等受邀參加開幕式當天的“AI論壇”,展現(xiàn)現(xiàn)階段最新的技術(shù)能力積累以及應(yīng)用創(chuàng)新方向的更多可能。

出席2024聲網(wǎng)RTE大會,Soul App展現(xiàn)多模態(tài)大模型情感交互能力

在活動現(xiàn)場,Soul App AI算法技術(shù)總監(jiān)劉忠亮以《實時互動、情感陪伴,開啟智能社交新時代》為主題,重點分享了Soul多模態(tài)大模型的技術(shù)研發(fā)脈絡(luò),以及圍繞社交場景深度打磨多模態(tài)交互、情感陪伴、自然反饋等AI能力方向的最新成果和應(yīng)用實踐。

劉忠亮表示,Soul致力于構(gòu)建一個AI Being與Human Being共存的社交社區(qū),其中,“人”是最為關(guān)鍵的,因此Soul的AI探索從用戶的實際社交場景出發(fā),在AI輔助人、解決人與人鏈接需求的基礎(chǔ)上,以更智能、更沉浸的人機互動升級社交體驗。“Soul在AI方向的布局有清晰的推進層次,在以AI增強關(guān)系建立的效率和質(zhì)量后,團隊探索多模態(tài)大模型、重點關(guān)注AI如何提供即時的交流反饋和情緒價值。”

2016年上線之初,Soul首先推出了靈犀引擎,基于平臺用戶站內(nèi)全場景畫像與獨特算法,持續(xù)挖掘有效特征,實現(xiàn)平臺上“人與人”“人與內(nèi)容”的智能連接,合理分配注意力資源和交流機會,這讓Soul在當時成為了較早將AI引入人與人鏈接的社交平臺,并在用戶群體中形成了差異化的產(chǎn)品認知。

2020年,Soul正式啟動對AIGC的技術(shù)研發(fā)工作,系統(tǒng)推進在智能對話、語音技術(shù)、3D虛擬人等AIGC關(guān)鍵技術(shù)能力研發(fā)工作。2023年,Soul推出自研語言大模型Soul X,成為行業(yè)中較早通過備案的科技企業(yè)之一,此后,平臺先后推出了語音生成大模型、語音識別大模型、語音對話大模型、音樂生成大模型等語音大模型能力。

今年6月,Soul還在社交領(lǐng)域中較早推出了自研端到端全雙工語音通話大模型,具備超低交互延遲、快速自動打斷、超真實聲音表達和情緒感知理解能力等特點,能夠直接理解豐富的聲音世界,支持超擬人化的多風(fēng)格語言。

2024年,Soul AI大模型能力整體升級為了多模態(tài)端到端大模型,支持文字對話、語音通話、多語種、多模態(tài)理解、真實擬人等特性,特別是團隊在模型感知能力和推理能力層面的技術(shù)突破,疊加端到端方案對延遲問題的解決(現(xiàn)階段Soul端到端對話模型的延遲低于200毫秒),進一步實現(xiàn)了實現(xiàn)更接近生活日常的交互對話和“類真人”的情感陪伴體驗,使人機互動也能具備“在場感”和超擬人屬性。

通過在現(xiàn)場展示目前Soul多模態(tài)大模型落地在平臺智能機器人“AI茍蛋”、AI聊天助理、狼人殺Agent、數(shù)字分身以及最新的AI虛擬人智能陪伴功能的實際效果,劉忠亮說,“大模型能力服務(wù)人的社交需求,并不只是單點的人機對話,而是在豐富、趣味的社交場景中,以AI建立完善的關(guān)系鏈發(fā)現(xiàn)——建立——深化的環(huán)節(jié),并讓AI為人提供情緒價值,這是Soul在產(chǎn)品應(yīng)用探索層面的主脈絡(luò),目前平臺推出的相關(guān)功能也受到了用戶的廣泛認可和積極反饋。”

在不久前結(jié)束的全球最具影響力的盛會之一—— GITEX GLOBAL海灣信息技術(shù)博覽會上,Soul攜集成3D虛擬人能力的多模態(tài)AI交互方案亮相,在博覽會現(xiàn)場接受記者采訪時,Soul App CTO陶明表示,“預(yù)計今年年底,Soul多模態(tài)端到端大模型將再次升級,推出全雙工視頻通話能力。”

這也意味著,Soul將實現(xiàn)真正意義上的AI多模態(tài)交互,集合文字、語音、動作交互的多模態(tài)大模型,讓用戶可以在平臺實現(xiàn)更接近人類模式的互動體驗和更高效、自然、豐富維度的信息傳遞,真正獲得社交體驗的顛覆式升級。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )