11月12日,阿里云通義大模型團隊開源通義千問代碼模型全系列,共6款Qwen2.5-Coder模型。相關評測顯示,6款代碼模型在同等尺寸下均取得了業(yè)界最佳效果,其中32B尺寸的旗艦代碼模型在十余項基準評測中均取得開源最佳成績,成為全球最強開源代碼模型,同時,該代碼模型還在代碼生成等多項關鍵能力上超越閉源模型GPT-4o。基于Qwen2.5-Coder,AI編程性能和效率均實現(xiàn)大幅提升,編程“小白”也可輕松生成網(wǎng)站、數(shù)據(jù)圖表、簡歷、游戲等各類應用。
編程語言是高度邏輯化和結構化的,代碼模型要求理解、生成和處理這些復雜的邏輯關系和結構,通常也被認為是大模型邏輯能力的基礎來源之一,對于整體提升大模型推理能力至關重要。Qwen2.5-Coder基于Qwen2.5基礎大模型進行初始化,使用源代碼、文本代碼混合數(shù)據(jù)、合成數(shù)據(jù)等5.5T tokens的數(shù)據(jù)持續(xù)訓練,實現(xiàn)了代碼生成、代碼推理、代碼修復等核心任務性能的顯著提升。
其中,本次新發(fā)布的旗艦模型Qwen2.5-Coder-32B-Instruct,在EvalPlus、LiveCodeBench、BigCodeBench等十余個主流的代碼生成基準上,均刷新了開源模型的得分紀錄,并在考察代碼修復能力的Aider、多編程語言能力的McEval等9個基準上優(yōu)于GPT-4o,實現(xiàn)了開源模型對閉源模型的反超。
在代碼推理方面,Qwen2.5-Coder-32B-Instruct刷新了CRUXEval-O基準開源模型的最佳紀錄。Qwen2.5-Coder-32B-Instruct在40 余種編程語言中表現(xiàn)優(yōu)異,在McEval基準上取得了所有開閉源模型的最高分,并斬獲考察多編程語言代碼修復能力的MdEval基準的開源冠軍。
此次開源,Qwen2.5-Coder推出0.5B/1.5B/3B/7B/14B/32B 等6個尺寸的全系列模型,每個尺寸都開源了Base 和 Instruct 模型,其中,Base模型可供開發(fā)者微調(diào),Instruct模型則是開箱即用的官方對齊模型,所有Qwen2.5-Coder模型在同等尺寸下均取得了模型效果最佳(SOTA)表現(xiàn)。
Qwen2.5-Coder全系列開源,可適配更多應用場景,無論在端側(cè)還是云上,都可以讓AI大模型更好地協(xié)助開發(fā)者完成編程開發(fā),即便是編程“小白”,也可基于內(nèi)置Qwen2.5-Coder的代碼助手和可視化工具,用自然語言對話生成網(wǎng)站、數(shù)據(jù)圖表、簡歷和游戲等各類應用。
截至目前,Qwen2.5已開源100多個大語言模型、多模態(tài)模型、數(shù)學模型和代碼模型,幾乎所有模型都實現(xiàn)了同等尺寸下的最佳性能。據(jù)了解,全球基于Qwen系列二次開發(fā)的衍生模型數(shù)量9月底突破7.43萬,超越Llama系列衍生模型的7.28萬,通義千問已成為全球最大的生成式語言模型族群。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )