商湯如影AI隨形,打造高質量、低門檻的數(shù)字人視頻生成平臺

隨著移動互聯(lián)網(wǎng)的普及,視頻已經(jīng)成為人與人互動交流、品牌開展營銷活動的重要媒介。但無論是短視頻的制作還是視頻直播,都需要在內(nèi)容策劃和拍攝、剪輯等環(huán)節(jié)消耗大量資源和精力。如今,在AI大模型的技術革新下,AI數(shù)字人視頻生成技術成為降低視頻創(chuàng)作成本,突破質量和效率天花板的有效路徑。

前不久,商湯科技公布了其自主研發(fā)的“日日新SenseNova”大模型體系,并推出基于該體系下的“商湯如影SenseAvatar”AI數(shù)字人視頻生成平臺。該平臺基于AI數(shù)字人視頻生成算法、語言大模型、AI文生圖、AIGC等多種能力,能夠輕松實現(xiàn)高質量、高效率的數(shù)字人視頻內(nèi)容創(chuàng)作,推動視頻內(nèi)容創(chuàng)作的范式革新。

 image001.gif 

如影數(shù)字人生成方案只需一次真人素材錄入,就能生成超寫實的數(shù)字分身,實現(xiàn)視頻制作效率的指數(shù)級提升。作為全棧式的AI數(shù)字人視頻生成平臺,“如影”平臺旨在幫助企業(yè)和個人輕松開展數(shù)字人短視頻、直播等內(nèi)容創(chuàng)作,同時也可為教育培訓、企業(yè)宣傳,娛樂文化等領域提供視頻解決方案,提高品牌知名度和用戶粘性。

大模型+大算力,讓數(shù)字人生成效果好、速度快

“大模型”和“大算力”是實現(xiàn)高質量、高效率數(shù)字人生成的核心驅動力。在商湯“日日新SenseNova”大模型體系和AI大裝置SenseCore的支持下,“如影”平臺在生成效率和效果方面雙雙突破,引領行業(yè)前沿。

出眾的生成效果源于大模型強大的數(shù)據(jù)學習能力。通過對海量真人基礎數(shù)據(jù)的有效學習,“如影”平臺生成的數(shù)字人外貌更真實、動作表情更自然,對輸入的素材也更加魯棒。其中真人相似度高達90%~95%,口型匹配度可達95%,遠超業(yè)界平均水平。大模型更強的泛化能力,也讓“如影”平臺能夠更好地支持不同類型、不同風格的數(shù)字人生成,并覆蓋更多種語言。

高效的生成速度則依托全自動化的處理流程和AI大裝置強大的算力利用能力。通過打通從上傳視頻、處理數(shù)據(jù)、訓練模型、轉換模型到模型部署的自動化閉環(huán),“如影”平臺可將傳統(tǒng)視頻制作流程中的人工處理時間大幅減少90%,模型訓練時間減少60%,只需1天,即能完成各類定制數(shù)字人訓練。結合商湯AI大裝置SenseCore的強大算力和并發(fā)處理效率,平臺更可以做到數(shù)字人的批量生產(chǎn),同時滿足不同客戶的定制化需求。

依托大模型和大算力,無論是2D數(shù)字人還是3D數(shù)字人的視頻生成,“如影”平臺均能夠為客戶提供低門檻的創(chuàng)作工具,賦能客戶將質量、效率發(fā)揮到極致。

僅需5分鐘真人視頻,就能打造超寫實2D數(shù)字分身

2D數(shù)字人如同用戶的數(shù)字分身,可以代替真人出鏡開展視頻創(chuàng)作,實現(xiàn)效率躍遷?;趶姶箢I先的AI生成能力和便捷易用的使用體驗,“如影”平臺僅需一段5分鐘手機拍攝的真人視頻素材,就能生成動作、表情、口型都能如真人一般自然逼真,且多語種精通的數(shù)字分身。平臺還打通了從文生文、文生視頻的整個流程,通過文字驅動,即可自由無門檻地開展各類視頻內(nèi)容制作。

 image002.gif 

以文案創(chuàng)作為例,用戶只需要輸入粗略想法,平臺就會自動生成相關視頻文案。從換裝到換背景,素材選擇同樣靈活自由。用戶不僅可以使用平臺內(nèi)置的豐富的已有素材或上傳自己的素材,還可以借助平臺的AI文生圖能力,給定相應的提示詞,生成“腦中所想”的其他素材,并直接應用于視頻創(chuàng)作。

 image003.gif 

對于有跨國交流需求的用戶,“如影”平臺還支持多語言文本生成及多語言語音合成,涵蓋超過100個國家和地區(qū)。用戶通過簡單操作,就可直接將生成好的視頻切換成不同語言版本,發(fā)音、口型自動匹配,輕松完成“本土化”內(nèi)容創(chuàng)作。

image004.png 

創(chuàng)建鮮活飽滿的3D數(shù)字人

3D數(shù)字人虛擬主播或“虛擬IP”,有著更靈活廣泛的使用場景,但制作成本更高。

和現(xiàn)實世界的交互,不僅需要一顆聰明的大腦來生成可靠的文字,還需要通過靈動自然、語義契合的動作,來增加3D數(shù)字人的表現(xiàn)力和感染力。

基于商湯原創(chuàng)OpenXRLab擴展現(xiàn)實平臺的領先算法,打造了一套多模態(tài)的動作生成解決方案,無需專業(yè)設備進行動捕,就能夠根據(jù)文字語義和聲音韻律生成風格多樣、語義準確、長時間自然連貫的表情和動作。

 image005.jpg 

得益于全棧生成式AI能力,讓用戶輕松開啟直播之旅?;谏虦恼Z言大模型,針對直播帶貨場景進行了優(yōu)化,可以根據(jù)產(chǎn)品內(nèi)容快速生成多風格的帶貨文本,配合多風格的聲音及動作生成,讓你一鍵擁有百變主播。借助商湯大模型的精細化3D物件生成能力和文生圖大模型,數(shù)字人的交互能力和直播場景中的內(nèi)容元素亦可持續(xù)拓展。 

直播過程中,數(shù)字人還可以自主完成帶貨、粉絲互動、疑難解答等實時交互,以更低的運營成本實現(xiàn)24小時直播運營,全天候觸達用戶。 

除視頻、直播場景外,數(shù)字人也可廣泛適用于文旅、展館、金融、教育、商超等各類線下場景,提供多樣化服務。在今年上海車展期間,商湯展示了數(shù)字人在車艙場景的應用,既能自動提煉郵件關鍵信息,還會整理會議紀要,是一位智能有溫度的絕佳行車伴侶。

 image006.jpg 

在推動AI數(shù)字人視頻生成技術創(chuàng)新和應用的過程中,商湯還致力于打造“可信數(shù)字人”,在可信原則的指導下推動虛擬人市場健康、可持續(xù)、高質量發(fā)展。每個在“如影”平臺創(chuàng)作的數(shù)字人,都經(jīng)過了嚴格的可信認證,確保其不被盜用或篡改。同時,由中國信通院牽頭,商湯科技參編的《可信虛擬人生成內(nèi)容管理系統(tǒng)技術要求》已完成立項,將于年內(nèi)出臺團體標準,推動可信數(shù)字人行業(yè)標準建立,讓數(shù)字人生成內(nèi)容與真人意愿不“脫鉤”,數(shù)字人產(chǎn)業(yè)快速發(fā)展不從監(jiān)管“脫韁”,肖像權、所有權與現(xiàn)實約束不“脫節(jié)”。 

目前,“如影SenseAvatar”平臺已面向多家企業(yè)開放服務,幫助各行各業(yè)突破原有內(nèi)容制作模式的瓶頸,打破內(nèi)容創(chuàng)意的天花板,讓更易用、更智能的數(shù)字人生成技術,成為智能時代的全新生產(chǎn)力工具。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )