科學(xué)家警告:用AI生成內(nèi)容訓(xùn)練AI 將在幾代內(nèi)開始產(chǎn)生"垃圾"

6月20日消息,人工智能領(lǐng)域的專家預(yù)測,隨著越來越多的人工智能生成的內(nèi)容在網(wǎng)上發(fā)布,未來接受這些數(shù)據(jù)訓(xùn)練的人工智能最終將陷入混亂。

一群英國和加拿大的科學(xué)家在5月發(fā)表了一篇論文,試圖了解幾代AI相互訓(xùn)練后會(huì)發(fā)生什么。在一個(gè)例子中,經(jīng)過九次迭代的人工智能系統(tǒng)會(huì)喋喋不休地談?wù)撘巴?,而最初的原始材料是關(guān)于中世紀(jì)建筑的。

該研究的作者之一、劍橋大學(xué)教授羅斯·安德森(Ross Anderson)在闡述關(guān)于研究結(jié)果的博客文章中寫道,數(shù)據(jù)表明,“經(jīng)過幾次迭代后,人工智能輸出的文字就變成了垃圾,圖像也會(huì)變得無法理解”。這些科學(xué)家們的論文尚未經(jīng)過同行評(píng)審,他們稱這種現(xiàn)象為“模型崩潰”。

聊天機(jī)器人ChatGPT背后的大語言模型(LLM)通常需要從互聯(lián)網(wǎng)上抓取大量數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)多為人類生成。但隨著人們對(duì)這些工具的使用越來越多,人工智能生成的內(nèi)容正被大量添加到在線數(shù)據(jù)池中,未來的LLM將從中學(xué)習(xí)。

科學(xué)家們說,利用人工智能生成內(nèi)容對(duì)人工智能系統(tǒng)進(jìn)行迭代訓(xùn)練,意味著錯(cuò)誤和無意義的例子會(huì)不斷增加,使后來的人工智能無法區(qū)分事實(shí)和虛構(gòu)內(nèi)容。他們擔(dān)憂道,人工智能將“通過強(qiáng)化自己的信念,開始曲解他們認(rèn)為是真實(shí)的東西”。

安德森用莫扎特(Mozart)和另一位音樂家安東尼奧·薩列里(Antonio Salieri)的作品來闡釋這個(gè)問題。

他寫道:“如果你用莫扎特的作品來訓(xùn)練某個(gè)音樂模型,你可以期待輸出的音樂風(fēng)格有點(diǎn)像莫扎特,但不會(huì)有太多亮點(diǎn),我們可以稱之為‘薩列里’。然后再利用‘薩列里’訓(xùn)練下一代人工智能系統(tǒng),如此反復(fù)下去,第五代或第六代模型會(huì)是什么樣子?”

這項(xiàng)研究的第一作者、牛津大學(xué)教授伊利亞·舒馬伊洛夫(Ilia Shumailov)說,問題在于人工智能在接受早期人工智能生成內(nèi)容的訓(xùn)練后對(duì)概率的感知。不太可能發(fā)生的事件越來越不可能反映在它的輸出中,從而縮小了下一代人工智能(根據(jù)這種輸出進(jìn)行訓(xùn)練)所能理解的可能性。

在論文中給出的一個(gè)例子中,人類生成的關(guān)于中世紀(jì)建筑的文本通過人工智能語言模型輸入,然后該模型的輸出用于訓(xùn)練下一代人工智能。最初的文本巧妙地處理了相互競爭的建筑理論,并經(jīng)過了多次這樣的循環(huán)。

到了第九次迭代,這些文字就變成了毫無意義的胡言亂語。上面寫著:“建筑是世界上最大的黑長耳大野兔、白長耳大野兔、藍(lán)長耳大野兔、紅長耳大野兔、黃長耳大野兔的家園。 ”

安德森將“模型崩潰”比作大規(guī)模污染,他寫道:“就像我們?cè)诤Q罄锶鰸M了塑料垃圾,在大氣中放滿了二氧化碳,我們即將讓互聯(lián)網(wǎng)上充滿胡言亂語?!?/p>

人工智能生成的內(nèi)容已經(jīng)在網(wǎng)上大規(guī)模出現(xiàn)。今年5月,在線虛假信息監(jiān)管機(jī)構(gòu)NewsGuard警告稱,它發(fā)現(xiàn)49個(gè)新聞網(wǎng)站似乎完全由人工智能撰寫內(nèi)容。

據(jù)報(bào)道,市場營銷和公關(guān)機(jī)構(gòu)越來越多地將文案外包給聊天機(jī)器人,從而搶走了人類創(chuàng)作者的工作。但是,根據(jù)舒馬伊洛夫和安德森的發(fā)現(xiàn),希望不被人工智能打敗的人類創(chuàng)作者還不應(yīng)該開香檳慶祝。

舒馬伊洛夫說,對(duì)于訓(xùn)練人工智能來說,人工生成的數(shù)據(jù)并不是絕對(duì)必要的,它之所以有用,是因?yàn)槲覀兊恼Z言產(chǎn)生了大量的自然變化、錯(cuò)誤和不可預(yù)測的結(jié)果。

“所以,人類肯定會(huì)提供幫助,”他說?!芭c此同時(shí),這也表明,在訓(xùn)練人工智能時(shí),人類數(shù)據(jù)的需求不會(huì)非常龐大。”(小?。?/p>

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2023-06-20
科學(xué)家警告:用AI生成內(nèi)容訓(xùn)練AI 將在幾代內(nèi)開始產(chǎn)生"垃圾"
隨著越來越多的人工智能生成的內(nèi)容在網(wǎng)上發(fā)布,未來接受這些數(shù)據(jù)訓(xùn)練的人工智能最終將陷入混亂。

長按掃碼 閱讀全文