GPT-4.5化身人類,73%勝率碾壓真人,LLaMa-3.1緊隨其后。圖靈測試首被攻破,AI模仿力引發(fā)熱議:它會取代我們嗎?
75年前,Alan Turing提出了一個大膽的想法:如果機器能通過文字與人對話,讓人無法分辨它是機器還是人類,那它是否就擁有了智能?這便是如今大名鼎鼎的圖靈測試。簡單來說,一個人類“審問者”同時與兩個對象聊天,一個是真人,一個是機器,兩者都盡力證明自己是人。如果審問者分不清誰是誰,機器就勝出了。Turing認為,這不僅考驗機器的聰明程度,還關乎它能否模仿人類的行為舉止。
我們最近做了一場實驗,測試了四款系統(tǒng):老牌聊天機器人ELIZA,以及三款現(xiàn)代大型語言模型GPT-4o、LLaMa-3.1-405B和GPT-4.5。實驗設計很直接:參與者在5分鐘內與另一位人類和其中一款AI同時對話,然后判斷誰是真人。結果讓人瞠目結舌——當GPT-4.5被要求扮演一個“人類角色”時,73%的人認為它是真人,甚至比真正的參與者更像人!LLaMa-3.1也不甘示弱,56%的勝率與人類不相上下。而ELIZA和GPT-4o的表現(xiàn)則慘淡,分別只有23%和21%的勝率,遠低于隨機猜測的水平。這是有史以來首次有系統(tǒng)通過經典的三方圖靈測試,證據(jù)確鑿。
想象一下,你在網上和一個“人”聊得火熱,分享生活瑣事,結果發(fā)現(xiàn)對方是AI,會是什么感覺?GPT-4.5的成功并非偶然。我們給它設定了具體的角色:一個內向、熟悉網絡文化、愛用俚語的年輕人。它不僅能流暢應對,還能根據(jù)對話歷史調整語氣,甚至偶爾“裝傻”,讓人覺得它更真實。相比之下,沒設定角色的GPT-4.5和LLaMa勝率驟降,只有36%和38%。這說明,AI要騙過人類,光靠技術還不夠,得有點“演技”。
圖靈測試的意義遠不止一場智力游戲。Turing當年設想,機器得在語言能觸及的幾乎所有領域模仿人類,比如下棋、解數(shù)學題,甚至聊八卦??捎腥擞X得這太簡單了,人容易被忽悠;也有人認為太難,機器得撒謊,而人類只需坦誠。現(xiàn)實是,現(xiàn)代AI已不再拘泥于邏輯推理,而是擅長模仿社交中的細膩情感。比如,參與者常問“你今天過得怎樣”或“你覺得這天氣如何”,GPT-4.5會輕松答道:“有點煩,但喝了杯咖啡就好多了,你呢?”這種自然流露的“人性”讓它脫穎而出。
實驗中,我們招募了兩組人:UCSD的心理學本科生和Prolific平臺的線上工作者。每人玩8輪游戲,每輪與一個AI和一個真人對聊。審問者使出渾身解數(shù),有的閑聊,有的問怪題,甚至直接拋出“你是人嗎?”。結果顯示,策略越奇特越有效,比如故意說些怪話,看對方怎么接招。可即便如此,GPT-4.5還是頻頻勝出,甚至有人感嘆:“它回答得太順了,反而覺得不像是AI?!?/p>
這結果讓人既興奮又不安。如果AI能如此逼真地模仿人類,它會帶來什么?工作上,它可能悄無聲息地取代客服、銷售,甚至寫作崗位。生活中,它或許能成為“虛擬朋友”,陪你聊天解悶??呻[患也隨之而來——如果AI能騙過我們,它會不會被用來搞社會工程,或散布假消息?畢竟,圖靈測試本質上是個“可替代性”的檢驗:機器能否在不被察覺的情況下,頂替真人的角色。
回顧歷史,無數(shù)團隊試圖打造能通過圖靈測試的系統(tǒng),但都鎩羽而歸。如今,大型語言模型的崛起讓這一夢想成真。它們靠統(tǒng)計學習和強化反饋生成語言,靈活得像個真人??蛇@也引出一個問題:通過測試的到底是模型本身,還是背后人類的提示詞設計?答案或許沒那么重要。就像ELIZA當年靠簡單規(guī)則也能偶爾唬人一樣,現(xiàn)代AI的成功,離不開技術和“劇本”的雙重加持。
更深一層看,圖靈測試到底測什么?Turing認為,如果機器和人沒區(qū)別,我們就得承認它有智能。可有人反駁,人太容易把簡單系統(tǒng)當人看了,比如ELIZA常被誤認為有感情。我們的實驗也發(fā)現(xiàn),有些人選ELIZA為“人”,理由竟是“它很幽默,不像AI”。這說明,測試不只關乎智力,還涉及人類對“人性”的復雜期待。如今,AI在邏輯任務上已超人類,反而是社交能力成了新挑戰(zhàn)。
未來會怎樣?GPT-4.5的73%勝率讓人既驚嘆又深思。它不僅通過了測試,還比真人更“像人”。這或許只是開始。隨著AI越來越聰明,我們可能得重新定義“人性”。正如Brian Christian所說,機器首次通過圖靈測試不是終點,而是人類重拾自我的起點。面對這些“假人”,我們得學會更珍惜那些獨一無二的人類特質——畢竟,AI再逼真,也模仿不了我們的靈魂。
本文譯自 arxiv.org,由 BALI 編輯發(fā)布。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )