研究發(fā)現(xiàn),Qwen天生擅長驗(yàn)證、回溯等推理行為,而Llama需通過訓(xùn)練誘導(dǎo)這些習(xí)慣,才能在強(qiáng)化學(xué)習(xí)中實(shí)現(xiàn)自我提升。
想象一下,當(dāng)你面對一個棘手的數(shù)學(xué)題時,會怎么做?可能會多花點(diǎn)時間,仔細(xì)推敲每一步,甚至在走不通時退回去重來。這種深思熟慮的能力,如今也開始在語言模型身上顯現(xiàn)。近年來,通過強(qiáng)化學(xué)習(xí)(RL),一些模型學(xué)會了在復(fù)雜問題上“慢下來思考”,就像人類專家那樣。然而,有趣的是,有些模型進(jìn)步神速,有些卻很快停滯。比如,在《倒計(jì)時》游戲的相同訓(xùn)練下,Qwen-2.5-3B遠(yuǎn)遠(yuǎn)甩開Llama-3.2-3B。這不禁讓人好奇:是什么讓某些模型能不斷自我提升?
為了解開這個謎團(tuán),研究者們聚焦于四種關(guān)鍵的認(rèn)知行為:驗(yàn)證、回溯、設(shè)定子目標(biāo)和逆向推理。這些習(xí)慣在人類解決問題時很常見——一位數(shù)學(xué)家會檢查證明的每一步,遇到矛盾時放棄死胡同,把大問題拆成小塊,從結(jié)果反推起因。研究發(fā)現(xiàn),Qwen天生就帶有這些特質(zhì),尤其擅長驗(yàn)證和回溯,而Llama起初幾乎完全欠缺。正是這些行為,讓Qwen能在強(qiáng)化學(xué)習(xí)中如魚得水。
那么,能不能讓Llama也學(xué)會這些本領(lǐng)呢?實(shí)驗(yàn)給出了一線希望。通過給Llama提供一些包含這些推理行為的示例,比如回溯的思考痕跡,它在強(qiáng)化學(xué)習(xí)中的表現(xiàn)突飛猛進(jìn),甚至追平了Qwen。更令人驚訝的是,即便這些示例的答案是錯的,只要推理模式正確,效果依然顯著。這說明,關(guān)鍵不在于答案對錯,而在于模型是否掌握了這些認(rèn)知習(xí)慣。
研究并未止步于此。研究者們還嘗試從OpenWebMath數(shù)據(jù)中篩選出強(qiáng)調(diào)推理行為的內(nèi)容,繼續(xù)預(yù)訓(xùn)練Llama。結(jié)果令人振奮:Llama的進(jìn)步軌跡逐漸與Qwen看齊。這表明,一個模型的初始推理能力,決定了它能否有效利用額外的計(jì)算資源。Qwen這樣的“天賦選手”自然占優(yōu),而Llama則需要后天培養(yǎng)。
回想人類解題的場景,我們往往會反復(fù)驗(yàn)證,分解任務(wù),甚至從目標(biāo)倒推回去。語言模型也是如此。在《倒計(jì)時》游戲中,回溯和驗(yàn)證成了制勝法寶。研究者用這個游戲設(shè)計(jì)了初始實(shí)驗(yàn),發(fā)現(xiàn)Llama只要稍加引導(dǎo),就能展現(xiàn)潛力。后來,他們用更豐富的數(shù)據(jù)集進(jìn)一步訓(xùn)練,證明這種提升并非偶然,而是可以通過精心挑選訓(xùn)練素材實(shí)現(xiàn)的。
這些發(fā)現(xiàn)揭示了一個簡單卻深刻的道理:模型的自我提升,取決于它最初的推理習(xí)慣。Qwen之所以能脫穎而出,是因?yàn)樗詭?yàn)證和回溯的“天賦”;而Llama通過訓(xùn)練,也能迎頭趕上。更有趣的是,即便用錯誤答案引導(dǎo),只要保留正確的推理模式,效果依然不減。這讓人不禁思考:在編程、游戲或?qū)懽鞯绕渌I(lǐng)域,又需要哪些特定的認(rèn)知行為呢?
人類的智慧積累了無數(shù)解題的妙招,而AI正在這條路上越走越遠(yuǎn)。未來,它或許不僅能學(xué)會我們的習(xí)慣,還能創(chuàng)造出全新的推理方式。就像Qwen和Llama的故事告訴我們的,進(jìn)步的關(guān)鍵不在于起點(diǎn)多高,而在于能否找到適合自己的成長路徑。
本文譯自 arxiv.org,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )