亚洲欧美日韩精品色XXX,免费的网址久草热视频

如何提升AI模型的認(rèn)知？思考方式是關(guān)鍵

人閱讀

2025-03-08 08:07:02

來源：煎蛋
作者：BALI
相關(guān)關(guān)鍵詞
- 人工智能
- AI

研究發(fā)現(xiàn)，Qwen天生擅長驗(yàn)證、回溯等推理行為，而Llama需通過訓(xùn)練誘導(dǎo)這些習(xí)慣，才能在強(qiáng)化學(xué)習(xí)中實(shí)現(xiàn)自我提升。

想象一下，當(dāng)你面對一個棘手的數(shù)學(xué)題時，會怎么做？可能會多花點(diǎn)時間，仔細(xì)推敲每一步，甚至在走不通時退回去重來。這種深思熟慮的能力，如今也開始在語言模型身上顯現(xiàn)。近年來，通過強(qiáng)化學(xué)習(xí)(RL)，一些模型學(xué)會了在復(fù)雜問題上“慢下來思考”，就像人類專家那樣。然而，有趣的是，有些模型進(jìn)步神速，有些卻很快停滯。比如，在《倒計(jì)時》游戲的相同訓(xùn)練下，Qwen-2.5-3B遠(yuǎn)遠(yuǎn)甩開Llama-3.2-3B。這不禁讓人好奇：是什么讓某些模型能不斷自我提升？

為了解開這個謎團(tuán)，研究者們聚焦于四種關(guān)鍵的認(rèn)知行為：驗(yàn)證、回溯、設(shè)定子目標(biāo)和逆向推理。這些習(xí)慣在人類解決問題時很常見——一位數(shù)學(xué)家會檢查證明的每一步，遇到矛盾時放棄死胡同，把大問題拆成小塊，從結(jié)果反推起因。研究發(fā)現(xiàn)，Qwen天生就帶有這些特質(zhì)，尤其擅長驗(yàn)證和回溯，而Llama起初幾乎完全欠缺。正是這些行為，讓Qwen能在強(qiáng)化學(xué)習(xí)中如魚得水。

那么，能不能讓Llama也學(xué)會這些本領(lǐng)呢？實(shí)驗(yàn)給出了一線希望。通過給Llama提供一些包含這些推理行為的示例，比如回溯的思考痕跡，它在強(qiáng)化學(xué)習(xí)中的表現(xiàn)突飛猛進(jìn)，甚至追平了Qwen。更令人驚訝的是，即便這些示例的答案是錯的，只要推理模式正確，效果依然顯著。這說明，關(guān)鍵不在于答案對錯，而在于模型是否掌握了這些認(rèn)知習(xí)慣。

研究并未止步于此。研究者們還嘗試從OpenWebMath數(shù)據(jù)中篩選出強(qiáng)調(diào)推理行為的內(nèi)容，繼續(xù)預(yù)訓(xùn)練Llama。結(jié)果令人振奮：Llama的進(jìn)步軌跡逐漸與Qwen看齊。這表明，一個模型的初始推理能力，決定了它能否有效利用額外的計(jì)算資源。Qwen這樣的“天賦選手”自然占優(yōu)，而Llama則需要后天培養(yǎng)。

回想人類解題的場景，我們往往會反復(fù)驗(yàn)證，分解任務(wù)，甚至從目標(biāo)倒推回去。語言模型也是如此。在《倒計(jì)時》游戲中，回溯和驗(yàn)證成了制勝法寶。研究者用這個游戲設(shè)計(jì)了初始實(shí)驗(yàn)，發(fā)現(xiàn)Llama只要稍加引導(dǎo)，就能展現(xiàn)潛力。后來，他們用更豐富的數(shù)據(jù)集進(jìn)一步訓(xùn)練，證明這種提升并非偶然，而是可以通過精心挑選訓(xùn)練素材實(shí)現(xiàn)的。

這些發(fā)現(xiàn)揭示了一個簡單卻深刻的道理：模型的自我提升，取決于它最初的推理習(xí)慣。Qwen之所以能脫穎而出，是因?yàn)樗詭?yàn)證和回溯的“天賦”；而Llama通過訓(xùn)練，也能迎頭趕上。更有趣的是，即便用錯誤答案引導(dǎo)，只要保留正確的推理模式，效果依然不減。這讓人不禁思考：在編程、游戲或?qū)懽鞯绕渌I(lǐng)域，又需要哪些特定的認(rèn)知行為呢？

人類的智慧積累了無數(shù)解題的妙招，而AI正在這條路上越走越遠(yuǎn)。未來，它或許不僅能學(xué)會我們的習(xí)慣，還能創(chuàng)造出全新的推理方式。就像Qwen和Llama的故事告訴我們的，進(jìn)步的關(guān)鍵不在于起點(diǎn)多高，而在于能否找到適合自己的成長路徑。

本文譯自 arxiv.org，由 BALI 編輯發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）