近年來,人工智能領(lǐng)域迎來爆發(fā)式增長,大模型技術(shù)成為推動行業(yè)變革的核心引擎,大模型能力的躍升不斷刷新人類對AI潛力的認(rèn)知。
當(dāng)OpenAI的GPT-4訓(xùn)練需消耗數(shù)數(shù)萬張GPU卡時,中國AI企業(yè)DeepSeek卻以“千卡級”算力訓(xùn)練出性能對標(biāo)國際巨頭的模型,這一反差揭示了行業(yè)的關(guān)鍵轉(zhuǎn)折點——從單純追求硬件性能的“軍備競賽”,轉(zhuǎn)向通過工程創(chuàng)新實現(xiàn)算力效率的顛覆性提升。
DeepSeek在開源周里發(fā)布的大規(guī)??绻?jié)點專家并行(大EP),更是揭開推理服務(wù)提高吞吐、降低時延的技術(shù)秘訣,掀起大模型推理系統(tǒng)優(yōu)化的熱潮。
以DeepSeek為代表的大模型創(chuàng)新為算力基礎(chǔ)設(shè)施也帶來新的技術(shù)趨勢:大模型向大量小專家方向演進,性能提升、成本降低開始快速普及;另一方面,少量大專家模式走向高性能摸高,大量小專家向創(chuàng)新普及,未來兩種方案并存。
同時,DeepSeek采用的大規(guī)??绻?jié)點專家并行,實現(xiàn)性能、吞吐量和并發(fā)用戶數(shù)量的顯著提升,成本大幅度降低,也為大模型推理系統(tǒng)采用大規(guī)??绻?jié)點專家并行方案提供了可行性。
大規(guī)模專家并行EP,就是將專家Expert分布到更多的卡上,可以減少每張卡權(quán)重加載的時延,減少權(quán)重的顯存占用,能夠顯著的提升單卡并行的路數(shù)(batch size)。每個專家計算路數(shù)的提升可以提高矩陣乘的效率,從而實現(xiàn)更大的吞吐和更低的時延。同時大規(guī)模專家并行EP,更多專家也帶來負(fù)載均衡、卡間通信的挑戰(zhàn)。
盡管大規(guī)??绻?jié)點專家并行集群推理能夠降低成本,但在實際應(yīng)用中仍面臨專家動態(tài)均衡與通信時延等挑戰(zhàn)。
昇騰大EP解決方案憑借多項關(guān)鍵技術(shù)有效解決了以上挑戰(zhàn),針對專家負(fù)載不均的難題,通過自動尋優(yōu)、自動配比、自動預(yù)測、自動降解,實現(xiàn)備份節(jié)點和副本專家靈活可擴展、高可用和極致均衡。
針對All-to-All通信優(yōu)化的難題,昇騰大EP解決方案提出了雙流/多維混合并行,其中Prefill micro-batch雙流并行,可以實現(xiàn)計算和通信的相互掩蓋;MoE expert專家雙流并行,實現(xiàn)兩條數(shù)據(jù)流Stream的并行計算;Weight權(quán)重預(yù)取雙流并行,可以把訪存和通信并行起來,降低權(quán)重加載時間,提升效率。
此外,昇騰MLAPO融合算子也是關(guān)鍵技術(shù)之一,降低計算耗時70%。我們知道,MLA預(yù)處理階段,傳統(tǒng)方案多算子串行,頻繁占用內(nèi)存、通信等資源,整體計算耗時占比高。而昇騰MLAPO融合算子,將小算子融合成單一算子,Vector和Cube計算并行處理,減少開銷降低計算耗時。
在昇騰大EP推動技術(shù)普惠的同時,英偉達針對中國市場推出的H20芯片卻顯露出明顯短板。
H20作為英偉達針對中國市場發(fā)布的AI芯片,是用于大模型訓(xùn)練普遍采用的H100“低配版”,其AI算力僅為H100的15%,在推理方面,受性能的制約,H20只能在特定模型架構(gòu),展現(xiàn)出一定的效能。像DeepSeek采用的是混合專家(MoE)架構(gòu),在高batch size場景下,H20極易陷入性能瓶頸,導(dǎo)致時延顯著增加,從而無法充分發(fā)揮DeepSeek專家并行機制所具有的高吞吐量優(yōu)勢。因此,在大規(guī)模高并發(fā)的訓(xùn)推場景,H20難以滿足實際應(yīng)用需求。
當(dāng)DeepSeek證明“小算力亦可挑戰(zhàn)巨頭”,昇騰大EP則進一步回答:如何讓每一焦耳電力、每一美元投入,釋放最大AI價值。這場效率革命的意義遠超技術(shù)參數(shù)之爭——它標(biāo)志著AI競爭從“硬件堆疊”轉(zhuǎn)向“工程創(chuàng)新”,最終邁向產(chǎn)業(yè)普惠。(御風(fēng))
- 寶馬中國與華為合作,鴻蒙生態(tài)迎來豪華品牌新成員
- 顯卡市場供應(yīng)短缺加劇,華碩等廠商上調(diào)RTX 50系與RX 9070系顯卡價格
- 余承東預(yù)熱華為Pura新機:不止是手機
- OpenAI建議美國政府封殺中國人工智能
- 央視曝光黑公關(guān)現(xiàn)象,機器人水軍惡意攻擊企業(yè)品牌
- AMD處理器市場份額碾壓Intel
- Valve打造游戲中心操作系統(tǒng),SteamOS完成PC適配,挑戰(zhàn)Windows
- 摩根大通下調(diào)特斯拉交付預(yù)期,股價或跌至一半
- 算力革命再升級 昇騰大EP如何重塑AI推理效率邊界
- Intel新CEO陳立武薪酬揭曉,總額可達6900萬美元,但與業(yè)績強綁定
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。