華為模型盤(pán)古 Ultra 驚艷全球:純昇騰集群訓(xùn)練,性能比肩 DeepSeek-R1,英偉達(dá)含量為零

華為模型盤(pán)古 Ultra:純昇騰集群訓(xùn)練,性能比肩 DeepSeek-R1

============================

在人工智能領(lǐng)域,模型的參數(shù)量、訓(xùn)練資源和推理性能一直是衡量模型能力的重要指標(biāo)。華為推出的盤(pán)古 Ultra模型,憑借其純昇騰集群訓(xùn)練的優(yōu)勢(shì),在參數(shù)量達(dá)到135B的情況下,實(shí)現(xiàn)了與DeepSeek-R1等模型競(jìng)爭(zhēng)的優(yōu)異性能。本文將從算法、工程、數(shù)據(jù)等多個(gè)層面,深入剖析盤(pán)古 Ultra模型的技術(shù)細(xì)節(jié)和實(shí)現(xiàn)方式。

模型架構(gòu)與優(yōu)化

--------

盤(pán)古 Ultra模型采用了94層網(wǎng)絡(luò)結(jié)構(gòu),包含96個(gè)查詢(xún)頭和8個(gè)鍵值頭。為了解決訓(xùn)練超深網(wǎng)絡(luò)面臨的不穩(wěn)定性和收斂困難等問(wèn)題,模型在架構(gòu)上做出了兩個(gè)關(guān)鍵改進(jìn):深度縮放的Sandwich-Norm層歸一化和TinyInit參數(shù)初始化策略。

傳統(tǒng)的Transformer模型通常使用Pre-LN層歸一化,但在深度模型中,Pre-LN容易導(dǎo)致每個(gè)子層輸出尺度的波動(dòng),引發(fā)訓(xùn)練不穩(wěn)定。盤(pán)古 Ultra使用的Sandwich-Norm層歸化,在殘差連接前對(duì)每個(gè)子層的輸出做歸一化,并根據(jù)網(wǎng)絡(luò)深度對(duì)初始化值進(jìn)行縮放,有效消除了訓(xùn)練過(guò)程中的loss尖峰,使訓(xùn)練過(guò)程更加平穩(wěn)。

值得注意的是,Sandwich-Norm層歸化不僅在每個(gè)子層的輸入進(jìn)行歸一化,還在子層和Post-Norm之間形成了一個(gè)“三明治”結(jié)構(gòu),進(jìn)一步增強(qiáng)了模型的穩(wěn)定性。

然而,僅僅使用Sandwich-Norm層歸化可能無(wú)法完全消除深度模型訓(xùn)練中的不穩(wěn)定性。因此,盤(pán)古 Ultra在Sandwich-Norm的基礎(chǔ)上,引入了深度縮放機(jī)制,對(duì)Post-Norm中的放縮參數(shù)γ進(jìn)行了深度相關(guān)的初始化。這種深度相關(guān)的初始化策略有助于維持各層梯度的方差在一個(gè)合理的范圍內(nèi),避免了梯度消失或爆炸問(wèn)題,進(jìn)一步提升了模型的穩(wěn)定性。

此外,為了實(shí)現(xiàn)高效的訓(xùn)練和推理,盤(pán)古團(tuán)隊(duì)還針對(duì)Tokenizer進(jìn)行了優(yōu)化。通過(guò)在通用中英文、代碼、數(shù)學(xué)等不同領(lǐng)域分別進(jìn)行詞頻統(tǒng)計(jì),再合并去重,最終得到了一個(gè)兼顧領(lǐng)域覆蓋和編碼效率的平衡詞表。

訓(xùn)練設(shè)施與并行策略

----------

盤(pán)古 Ultra的訓(xùn)練流程主要分為預(yù)訓(xùn)練、長(zhǎng)上下文擴(kuò)展和指令調(diào)優(yōu)三個(gè)階段。預(yù)訓(xùn)練階段又細(xì)分為通用階段、推理階段和退火階段。研究者們采用了基于規(guī)則和模型的數(shù)據(jù)清洗方法,并設(shè)計(jì)了curriculum learning策略,讓模型循序漸進(jìn)地學(xué)習(xí)不同難度的樣本。

為了實(shí)現(xiàn)盤(pán)古 Ultra的高效訓(xùn)練,研究團(tuán)隊(duì)構(gòu)建了一個(gè)由8192個(gè)昇騰AI處理器組成的訓(xùn)練集群。每個(gè)節(jié)點(diǎn)包含8個(gè)NPU,通過(guò)華為高速緩存一致性互聯(lián)HCCS以全互聯(lián)的拓?fù)浣Y(jié)構(gòu)連接。節(jié)點(diǎn)間通過(guò)200Gbps的RoCE(RDMA over Converged Ethernet)網(wǎng)絡(luò)互聯(lián)。這樣的設(shè)施為大規(guī)模模型的訓(xùn)練提供了強(qiáng)大的硬件支持。

在并行策略的選擇上,盤(pán)古 Ultra綜合考慮了模型的規(guī)模、數(shù)據(jù)的特性以及硬件的拓?fù)洌罱K采用了數(shù)據(jù)并行、張量并行、序列并行和流水線(xiàn)并行等多種并行方式的組合。這種策略有效地提高了數(shù)據(jù)吞吐量,降低了內(nèi)存負(fù)擔(dān),并優(yōu)化了計(jì)算效率。

優(yōu)化技術(shù)與應(yīng)用

--------

為了實(shí)現(xiàn)高效的并行訓(xùn)練,盤(pán)古團(tuán)隊(duì)還采用了一套系統(tǒng)的并行策略和優(yōu)化技術(shù)。其中,ZeRO分布式優(yōu)化器將模型狀態(tài)分片到不同設(shè)備,大幅降低了單個(gè)設(shè)備的內(nèi)存占用,提高了數(shù)據(jù)并行度。此外,團(tuán)隊(duì)還通過(guò)各種通信和計(jì)算優(yōu)化技術(shù)最小化了通信開(kāi)銷(xiāo),提升了計(jì)算效率。

算法與工程層面的優(yōu)化是盤(pán)古 Ultra成功的關(guān)鍵因素之一。算子融合、通信計(jì)算重疊和MC^2/BOA等優(yōu)化技術(shù)減少了內(nèi)存訪(fǎng)問(wèn)和啟動(dòng)時(shí)間,實(shí)現(xiàn)了高效的通信和計(jì)算。這些優(yōu)化技術(shù)的應(yīng)用不僅提升了模型的性能,也進(jìn)一步降低了訓(xùn)練成本。

此外,盤(pán)古團(tuán)隊(duì)還通過(guò)精細(xì)的數(shù)據(jù)清洗和數(shù)據(jù)增強(qiáng)技術(shù)提升了模型的泛化能力。通過(guò)對(duì)數(shù)據(jù)的深度挖掘和利用,盤(pán)古 Ultra在各種任務(wù)中都表現(xiàn)出了卓越的性能。

性能表現(xiàn)與總結(jié)

--------

綜合來(lái)看,盤(pán)古 Ultra通過(guò)深度優(yōu)化模型架構(gòu)、采用高效的并行策略和優(yōu)化技術(shù)、精細(xì)的數(shù)據(jù)清洗和增強(qiáng)等手段,實(shí)現(xiàn)了52%以上的算力利用率。該模型在預(yù)訓(xùn)練階段就表現(xiàn)出優(yōu)異的性能表現(xiàn),并在指令調(diào)優(yōu)階段進(jìn)一步提升性能。尤其在AIE 2024、MATH-500等數(shù)學(xué)推理任務(wù)和LiveCodeBench等編程競(jìng)賽題上達(dá)到了SOTA水平。

總的來(lái)說(shuō),華為的盤(pán)古Ultra模型憑借其純昇騰集群訓(xùn)練的優(yōu)勢(shì)和精細(xì)的技術(shù)優(yōu)化,成功實(shí)現(xiàn)了與DeepSeek-R1等MoE模型競(jìng)爭(zhēng)的優(yōu)異性能。這再次證明了華為在人工智能領(lǐng)域的強(qiáng)大研發(fā)實(shí)力和技術(shù)創(chuàng)新能力。同時(shí),該

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2025-04-15
華為模型盤(pán)古 Ultra 驚艷全球:純昇騰集群訓(xùn)練,性能比肩 DeepSeek-R1,英偉達(dá)含量為零
華為模型盤(pán)古 Ultra:純昇騰集群訓(xùn)練,性能比肩 DeepSeek-R1 ============================ 在人工智能領(lǐng)域,模型的參數(shù)量、訓(xùn)練資源和...

長(zhǎng)按掃碼 閱讀全文