AI生產(chǎn)力拉滿!言犀公布最新語音合成及數(shù)字人大模型進展

在新一波的技術浪潮中,大語言模型風頭正勁,但還有一種AI技術,正在配音、直播、客服等多個行業(yè)正發(fā)揮出越來越廣泛的應用。2月18日,京東言犀公布了兩項最新技術成果——語音合成大模型LiveTTS及通用數(shù)字人大模型2.0,支持zero-shot音色復刻和精品音色微調(diào),并支持更精準的數(shù)字人聲唇對齊,將大幅提升人機自然交互體驗,目前已針對直播、外呼、客服、營銷等超10種特定商業(yè)化場景完成調(diào)優(yōu)適配。技術降本帶來用戶體驗躍升,預計也將帶動更多AI營銷服務增量市場。

語音合成大模型全新升級 支持zero-shot音色復刻和精品音色微調(diào)

LiveTTS,是京東言犀最新發(fā)布的高仿真、多語言、情感豐富的語音合成(TTS)大模型,通過AI 技術生成自然、具備韻律且富有情感的語音。現(xiàn)在,只需喂給LiveTTS模型最短3秒音頻素材,就能支持zero-shot音色復刻以及精品音色微調(diào),近乎完美的對聲音進行復刻。

這得益于基于Diffusion架構完成的20萬小時數(shù)據(jù)"熔煉"。在SeedTTS test-hard測試中,其CER指標(字符錯誤率)較其他頭部廠商模型降低了0.2%-5.12%不等,相當于每萬字最多能減少512處發(fā)音失誤。在主觀評價上,通過盲評的MOS評測,該模型尤其在音色相似度、自然清晰度、情感表達一致性方面表現(xiàn)出色,音色相似度較其他頭部廠商模型高出1.3倍。

從語音準確性上,言犀結合中文拼音與英文音素雙輸入系統(tǒng),提升了發(fā)音準確性,讓技術更可用。從仿真度上,采用高質(zhì)量的HiFt聲碼器,實現(xiàn)超98%的聲紋還原精度。

大量的實時、多樣性語音數(shù)據(jù)加入訓練,也進一步提升了模型的泛化能力,讓模型能夠在不同音頻提示詞(prompt)的條件下合成韻律豐富、自然的音頻,更加易用。LiveTTS已經(jīng)能適配從兒童俏皮聲到老年人沉穩(wěn)語調(diào)的多樣化需求,還支持中/英/日等多語種及方言的語音合成。

極低門檻、極致擬真、極多場景,是言犀LiveTTS語音合成大模型的優(yōu)勢。基于LiveTTS打造的言犀數(shù)字人,支持近百個不同風格音色,形成圍繞直播場景需求的聲音供應鏈。2024年京東11.11期間,言犀TTS單日調(diào)用超1000萬次,成本直降90%,大大提升直播、配音、外呼等行業(yè)的工作效率。

數(shù)字人大模型實現(xiàn)精準聲唇同步 造就AI生產(chǎn)力

言犀數(shù)字人已廣泛應用在電商直播、客服接待、短視頻等場景中,光是使用數(shù)字人日常開播的商家就有超過7500家。但數(shù)字人向更大范圍的規(guī)?;瘧檬冀K存在三個難點:形象數(shù)據(jù)采集成本高、模型訓練周期長和推理效果難泛化。

為了解決這些問題,言犀團隊提出了新一代聲唇同步數(shù)字人基座模型,通過創(chuàng)新的多階段基模型訓練方法、多圖參考的多層注意力機制等方法。這一億級參數(shù)量的聲唇同步基座模型,進一步拓展了數(shù)字人在遮擋、大角度、多語速、跨音色和多語言等場景的應用。目前,在動態(tài)背景、多人直播等真實應用場景里,言犀數(shù)字人的唇形匹配度仍達到95%,具備較好的泛化能力,在各種場景中更可用,更易用。

在新一代數(shù)字人基座大模型支持下,僅需一張帶人像的圖片或短視頻、一份商品鏈接,言犀就可以自動生成流暢豐富的帶貨腳本,結合LiveTTS生成情緒化口播,數(shù)字人便栩栩如生“活”起來。這種模式,告別了傳統(tǒng)、冗長的數(shù)字人模型訓練流程,實現(xiàn)直接推理,既省去了訓練成本,還進一步擴展了數(shù)字人在視頻翻譯等低數(shù)據(jù)量場景的應用邊界。

除了直播外,平臺還能支持輸出數(shù)十條不同風格的數(shù)字人種草短視頻。整個過程從過往的至少72小時壓縮至分鐘級,成本僅為傳統(tǒng)數(shù)字人制作的十分之一,進一步實現(xiàn)技術降本。

言犀最新發(fā)布的兩項技術成果,并非單純的技術跑分競賽,而是旨在進一步降低AI應用的成本,新一代的語音合成LiveTTS模型及數(shù)字人大模型2.0,正在短視頻合成、數(shù)字人直播、視頻翻譯、數(shù)字人唱歌跳舞等多個商業(yè)化場景中應用,讓大模型變成商家人手必備的普惠工具。

作為品牌的AI營銷搭子,言犀將不斷開發(fā)出更多支持營銷場景的技術與產(chǎn)品,進一步降低中小商家應用門檻,加速AI生產(chǎn)力走進營銷場景。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2025-02-18
AI生產(chǎn)力拉滿!言犀公布最新語音合成及數(shù)字人大模型進展
AI生產(chǎn)力拉滿!言犀公布最新語音合成及數(shù)字人大模型進展

長按掃碼 閱讀全文