以低成本模型挑戰(zhàn)巨頭:僅50美元,研究人員打造出媲美OpenAI o1推理神器
隨著人工智能技術的飛速發(fā)展,越來越多的研究者致力于開發(fā)更強大、更靈活的模型。近期,一份研究報告顯示,斯坦福大學和華盛頓大學的人工智能研究人員僅花費不到50美元的云計算費用,就成功訓練出一個具備“推理”能力的人工智能模型。這一成果引發(fā)了業(yè)界的廣泛關注,讓我們對未來的技術發(fā)展充滿了期待。
這個模型名為s1,其在數學和編程能力測試中的表現(xiàn)與OpenAI的o1和DeepSeek的r1等頂尖推理模型相似。值得一提的是,s1模型及其訓練所用的數據和代碼已在GitHub上開源,這一舉措充分展現(xiàn)了研究人員對公開、共享的追求。
s1模型的訓練過程并不復雜,研究人員使用了名為“蒸餾”的技術。該技術旨在通過訓練模型來學習另一個人工智能模型的答案,從而提取其“推理”能力。研究人員透露,s1模型是通過對谷歌的推理模型Gemini 2.0 Flash Thinking Experimental進行蒸餾得到的。上個月,加州大學伯克利分校的研究人員也使用了相同的蒸餾方法,以約450美元的成本創(chuàng)建了一個人工智能推理模型。
類似s1模型的誕生,也引發(fā)了關于人工智能模型商品化的問題。如果有人可以用相對較低的成本就能復制一個價值數百萬美元的模型,那么大型科技公司的“護城河”在哪里呢?這一問題值得深思。
然而,s1的研究團隊表示,他們希望找到實現(xiàn)強大推理性能和“測試時擴展”的最簡單方法,這些是OpenAI的o1中的一些突破。他們強調,使用一種名為監(jiān)督微調(SFT)的方法,可以使用相對較小的數據集來蒸餾推理模型。在SFT中,人工智能模型會被明確指示在數據集中模仿某些行為。這種方法相較于DeepSeek用于訓練其R1模型的大規(guī)模強化學習方法更具成本效益。
盡管s1模型的成功令人矚目,但其背后的研究人員并未滿足于現(xiàn)狀。他們選擇了一種免費的、小型、現(xiàn)成的免費人工智能模型作為基礎,并對其進行了一定程度的修改和優(yōu)化。為了訓練s1,研究人員創(chuàng)建了一個僅包含1000個精心策劃的問題的數據集,以及這些問題的答案,以及谷歌Gemini 2.0 Flash Thinking Experimental給出的每個答案背后的“思考”過程。這一過程充分展示了研究人員對數據集的精心策劃和細致入微的處理。
在訓練完成后,s1在某些人工智能基準測試中取得了良好的表現(xiàn)。參與該項目的斯坦福大學研究員Niklas Muennighoff告訴TechCrunch,目前租用這些計算資源的成本約為20美元。這一成本遠低于市場平均水平,使得更多的人能夠接觸和使用這些高級技術。
為了進一步優(yōu)化s1的性能,研究人員還使用了一個巧妙的技巧:他們讓s1“等待”。在s1的推理過程中添加“等待”一詞,有助于模型獲得稍微更準確的答案。這一技巧的實施,無疑為人工智能領域帶來了新的思考方向。
總的來說,s1模型的誕生無疑為人工智能領域帶來了新的可能性。它以低成本實現(xiàn)了強大的推理能力,展示了人工智能技術的無限潛力。這一成果不僅對研究者具有重要意義,也為未來的技術發(fā)展指明了方向。我們期待著s1模型在未來能夠取得更多的突破性成果,為人類社會帶來更多的便利和進步。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )