AI音為虛擬人注入靈魂 時域科技要打造音頻技術生態(tài)

很多歌迷都不得不面對一個苦澀現(xiàn)實,一些喜歡的歌手十年都出不了一張新專輯。背后的原因可能是歌手的發(fā)展規(guī)劃限制、能力高峰期已過,甚至歌手本人已經離世。

如果有一個AI可以完全還原idol聲音演唱任何歌曲,是不是就能完成大家隨時隨地聽偶像新歌的愿望?

實際上這已不再是夢想。隨著人工智能技術的發(fā)展,相比十年前虛擬歌手生硬的合成音,當下的技術已經能夠準確還原一個人的聲音并以此合成歌曲。

“其實還原人聲對我們來講已經是非?;A的事了,我們現(xiàn)在做的事不僅是合成像人一樣自然(life-like)的歌聲、說話聲。同時,要讓AI的聲音具備極高的情感表現(xiàn)力(rich-emotion),比如讓AI可以達到甚至超過專業(yè)歌手的演唱表達,從而為人類提供情感價值?!睍r域科技創(chuàng)始人兼CEO郭靖告訴億邦動力,公司正在基于這個能力,為虛擬偶像、數(shù)字人提供聲音技術支持。

時域科技是一家專注于AI領域的科技公司,致力于讓虛擬人滿足人類的情感需求,通過“富情感”人聲合成技術,賦予虛擬人表現(xiàn)情感的能力。其創(chuàng)始團隊由來自騰訊、字節(jié)等互聯(lián)網大廠的產品技術人員以及華納、傳媒大學等藝術背景的人員組成。

時域科技旗下產品ACE Studio能夠快速生成媲美錄音室錄制的人聲和歌曲。

作為一家要為虛擬人“注入靈魂”的公司,成立僅3年的時域科技已經拿下了五源資本、順為資本、知春資本、萬物資本的投資,其中五源資本連續(xù)加碼四輪,包括種子輪、天使輪、preA輪、A輪。

時域科技與國內頂級虛擬歌姬洛天依制作了AI聲音建模,為騰訊旗下的虛擬偶像“外來人員·童和光”提供的AI聲音模型登上了央視1套的五四特別晚會,在聲音合成領域技術能力排名世界前列。

有感情的聲音也能量產 “AI音”為虛擬人注入“靈魂”

當下個人PC已經發(fā)展超過40年,智能手機也已經普及到全球大眾手中,從文字到圖片再到當下的視頻都已經產生了大量的計算機框架和建模,完成了智能化改造,但有一個領域始終未能被計算機智能化,這就是聲音。

做為能夠觸達人類靈魂深處的交流媒介,聲音的信息傳達過程和形式極為復雜,從復雜的語言體系到豐富的演唱技巧再到所有能發(fā)出聲音的器具。聲音的互聯(lián)網化,截至目前也僅產生了語音通話、語音播客、音樂、提示音效、合成器等少數(shù)幾種。

“聲音內容的制作周期長、成本高,其中人聲應用范圍最廣,但好的人聲可遇不可求。有辨識度的人聲想合作排隊都排不上?!惫父嬖V億邦動力,市場缺少低成本有辨識度的人聲,既有優(yōu)質人聲的合作周期和產量都無法滿足市場需求,這是阻礙聲音市場發(fā)展的核心原因?!熬涂匆魳肥袌?,一首歌想要走紅,有作詞作曲還不夠,有一把好嗓子唱出來才行。”

人聲通過AI技術建模制作成AI合成聲,可以解決人聲內容的產量問題,這一技術近些年已經應用于AI智能外呼領域。但怎樣批量生產在各種情緒下都具有統(tǒng)一辨識度的AI合成人聲,并建立起海量的AI合成人聲建模?

這在技術之上,還需要大量工作。

郭靖表示:“我們可以去找有特色的人聲買斷版權、進行建模,這種方法適合企業(yè)打造自己的聲音IP。相對于這種挖掘全新優(yōu)質人聲的方法,我們現(xiàn)在在做的是通過AI技術合成新的‘人聲’,我們叫做AI音。這種聲音既像人聲一樣順滑完美,又有著高辨識度讓人喜歡?!?/p>

時域科技在服務洛天依等客戶的同時,已經將這一套技術產品化,現(xiàn)已推出聲音合成系統(tǒng)ACE Studio,用于虛擬演唱,可以幫助創(chuàng)作人在灌入詞曲的10分鐘內甚至數(shù)秒間,生成比肩專業(yè)錄音室制作的完整歌曲。

“使用一臺普通配置電腦,單人半日就能將一首歌制作好?!惫笍娬{。這將大幅縮短音樂的制作流程,創(chuàng)作歌曲不再需要大量專業(yè)設備專業(yè)人員配合,徹底改造音樂產業(yè)。

相比于容易陷入版權糾紛的人聲,時域科技正在投入大量技術力量在遷移學習技術領域,以期批量制作出具有高辨識度的AI聲。遷移技術的核心就是通過AI技術學習具有辨識度人聲的聲音特征,然后以此為標準合成新的高辨識度AI聲。

“利用AI技術合成的聲音,已經可以接近甚至超過人類的情感表現(xiàn)力?!惫笍娬{到。而帶有情感的聲音相當于虛擬人的靈魂,能夠幫助虛擬人快速觸達用戶的情感,能夠一定程度彌補AI智能服務中理解能力的不足,讓用戶更自然接受有缺陷的人工智能。

億級市場空間 所有應用都可以用AI音再做一遍

當合成人聲以低成本在市場高質高量的落地應用之后,整體市場將會迎來一輪新的改造,互聯(lián)網將是第一波迎來改造。

自從進入互聯(lián)網時代,圖文視頻形態(tài)快速衍生出的海量產品形態(tài)及商業(yè)模式,在互聯(lián)網告訴發(fā)展的30年里,音頻相關產品及商業(yè)模式卻停滯不前,甚至受困于互聯(lián)網免費模式,原有的音頻市場快速萎縮崩塌。當下的市場里,音頻相關的內容產品既不豐富,門檻又高,商業(yè)化與用戶需求不相匹配。

高質高量低價的合成人聲將改變這一局面。

“現(xiàn)在國內每年僅游戲行業(yè)的配音市場在10億左右,配音率在15%,游戲里大量場景和NPC角色都是沒有配音的。利用合成人聲技術配音率可以無限提高,配音率提高之后,對于聲音市場來說是一個非常大的增量空間;另一方面能還提高游戲的體驗,增強游戲的故事性、沉浸感,延長其生命周期。”郭靖向億邦動力舉了一個可以明確市場空間的案例。

而時域科技當下服務的虛擬偶像行業(yè),更是想象力巨大的潛力市場。

“為每個虛擬偶像、數(shù)字人都賦予獨特而高情感表現(xiàn)力的AI聲音,可以不僅在虛擬偶像、虛擬歌手、數(shù)字人領域發(fā)揮重要價值,更可以改變游戲、社交、電商領域的格局,讓AI更好的服務于人,為人類提供情感價值。而我們的技術在打造這樣的AI聲音基礎設施,是具有很低的邊際成本的?!惫父嬖V

虛擬偶像背后IP價值是難以想象的金礦,而AI音也帶來了超越傳統(tǒng)音樂工業(yè)的商業(yè)模式。對比真人偶像低產量和不確定性,以AI音為基礎的虛擬偶像就相當于一個個平臺,創(chuàng)作人可以隨時創(chuàng)作歌曲并使用工具讓虛擬偶像演唱出來。AI音合成工具直接將音樂創(chuàng)作人從冗長的行業(yè)運作機制中解放出來,隨時隨地將自己的創(chuàng)作靈感通過技術和互聯(lián)網傳播給全球每一個人。同時,大量具有高辨識度和受人喜愛的AI音,提高了新歌的打爆幾率,擴大了創(chuàng)作人的商業(yè)價值。

這也僅僅是音樂市場的變化。面向教育、心理健康、陪伴、游戲和影視等對聲音有著高要求的市場,使用AI音將能研發(fā)出更多專業(yè)應用。例如:影視行業(yè)可以大幅減少配音演員,縮短工作流程;游戲行業(yè)可以通過大幅增加NPC角色配音,來豐富游戲的故事性;即便是當下火熱的網文小說領域為了獲得更大的用戶群,還需要找專業(yè)配音團隊進行音頻化,而在AI音技術下,網文小說作家可以省去所有中間步驟,從一開始就是基于音頻合成軟件創(chuàng)作聲音劇?;诼曇魟。瑒勇?chuàng)作者、演員可以自發(fā)的進行二次創(chuàng)作,低成本實現(xiàn)影視劇體驗。

郭靖表示,時域科技正在研發(fā)多語言版本的AI音合成器。

“Yamaha Vocaloid當年做虛擬歌手的初心,是提供標準的音源工具賦能創(chuàng)作者,節(jié)約錄音的成本和人力的不確定性。但由于當時的技術局限,合成音比較機械,雖然誕生了初音未來、洛天依等優(yōu)秀的虛擬歌手。但成為標準音源工具的初心并沒有實現(xiàn)。而今天的技術做出的AI聲音,可以重新拾起Vocaloid當年的議題,讓AI聲音成為歌曲、游戲、影視等有聲內容創(chuàng)作中的標準生產力工具?!?/p>

以聲音為核心的交互模式,能用更低的軟硬件成本為用戶提供服務,畢竟智能音箱價格早已降到百元以下。而結合AI音技術能將更精確的情緒傳達給用戶,相比各種屏幕中的圖形交互界面,也是一種更自然更健康的互聯(lián)網體驗。

接下來的AI音的應用生態(tài)會是什么樣?郭靖表示:“所有跟聲音有關的媒介,未來都會有大量AI音的存在?!?/p>

直達心智的AI營銷來了?虛擬人唱跳帶貨將近

打造專業(yè)的應用服務永遠是最難的,而基于現(xiàn)有技術帶來的高質高量低成本特性,來為商家品牌做商業(yè)化服務,則有更多簡單路徑。

時域科技一邊在研發(fā)更先進的技術模型以調教出更優(yōu)秀的AI音,一邊正緊鑼密鼓地推出商業(yè)化AI音合成服務ACE Studio,另一邊也在為各種企業(yè)定制專屬AI音。

“用戶可以按月按年來訂閱我們的ACE Studio,一年的費用幾千塊,最終價格我們還沒有定。企業(yè)定制專屬AI音報價則在10萬到幾十萬不等,因為有些企業(yè)只需要將合作的配音老師的聲音做AI建模,有些則會要求重新合成新的聲音,成本是不一樣的?!惫副硎尽?/p>

在當下商家品牌在直播短視頻中投放日益增高的背景下,擁有一個優(yōu)質的能夠代表企業(yè)形象且能保持高質高量低成本生產的聲音,對于企業(yè)來說將是一筆恒定的品牌IP資產。AI音的出現(xiàn)既能保證企業(yè)視頻內容中高信息量地輸出企業(yè)宣傳信息,又能保證視頻制作的質量和數(shù)量,對于企業(yè)來說,將成為必不可少的運營工具。

實際上不止如此。

去年蜜雪冰城靠著一首洗腦歌曲成功在全網刷屏,從而成功破圈,成為國內知名品牌。這是國內大部分品牌尚未嘗試過的音樂營銷方法。相比當下流行的圖文視頻廣告形式,音樂營銷更容易觸達用戶心智,在潛意識里形成長久的記憶點。這種優(yōu)質的營銷媒介,因為成本和爆款幾率問題,在國內鮮有嘗試。蜜雪冰城也是靠著龐大的線下店面體量,才得以進行實踐。

而在AI音合成技術的支持下,音樂營銷的可能性被大大提高。

“基于我們的工具的話,制作一首專業(yè)歌曲只需要半人日,成本可以壓到很低。這個品質是跟錄音棚的效果是一樣的,當然這個是不考慮創(chuàng)作全新詞曲這種不確定周期的?!惫副硎?。

而實際上當下市場中存在大量公共版權曲譜,蜜雪冰城的洗腦歌曲即是采用公共版權的美國民謠《Oh!Suzanna》,公共版權的好處就是無論用于何種用途都無需支付版權費用,且可隨意二次加工。

利用公共版權曲譜,商家品牌足以在直播短視頻平臺做好音樂營銷。而已有公共版權的曲譜,運營只需填詞就可直接合成歌曲。時域科技目前推出的C端APP ACE虛擬歌姬,就可以在現(xiàn)有歌曲中以簡單填詞的玩法十分鐘內做出一首全新歌曲。

這種模式配合虛擬人唱跳玩法制作視頻內容,將進一步提升商業(yè)價值。而與虛擬人直播帶貨模式結合之后,則可以以唱跳的形式回答用戶提問,宣傳產品特色,形如2021年爆火的美少女蹦迪帶貨。

當下虛擬演唱會市場正在快速成熟,虛擬人唱跳帶貨結合主題虛擬演唱會,距離落地并不遙遠。

針對接下來的市場發(fā)展,郭靖表示:“以富情感的AI聲音合成為切入,我們會不斷探索AI滿足人類情感需求的應用場景,最終成為虛擬人與人類社交必不可少的基礎設施,推動AI與人類共生的時代到來?!?/p>

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2022-05-31
AI音為虛擬人注入靈魂 時域科技要打造音頻技術生態(tài)
利用公共版權曲譜,商家品牌足以在直播短視頻平臺做好音樂營銷。而已有公共版權的曲譜,運營只需填詞就可直接合成歌曲。時域科技可以在現(xiàn)有歌曲中以簡單填詞的玩法十分鐘內做出一首全新歌曲。

長按掃碼 閱讀全文