噼里啪啦动漫高清在线观看,av天堂电影在线观看

近年來，人工智能領(lǐng)域迎來爆發(fā)式增長，大模型技術(shù)成為推動行業(yè)變革的核心引擎，大模型能力的躍升不斷刷新人類對AI潛力的認(rèn)知。

當(dāng)OpenAI的GPT-4訓(xùn)練需消耗數(shù)數(shù)萬張GPU卡時，中國AI企業(yè)DeepSeek卻以“千卡級”算力訓(xùn)練出性能對標(biāo)國際巨頭的模型，這一反差揭示了行業(yè)的關(guān)鍵轉(zhuǎn)折點——從單純追求硬件性能的“軍備競賽”，轉(zhuǎn)向通過工程創(chuàng)新實現(xiàn)算力效率的顛覆性提升。

DeepSeek在開源周里發(fā)布的大規(guī)?？绻?jié)點專家并行（大EP），更是揭開推理服務(wù)提高吞吐、降低時延的技術(shù)秘訣，掀起大模型推理系統(tǒng)優(yōu)化的熱潮。

以DeepSeek為代表的大模型創(chuàng)新為算力基礎(chǔ)設(shè)施也帶來新的技術(shù)趨勢：大模型向大量小專家方向演進，性能提升、成本降低開始快速普及；另一方面，少量大專家模式走向高性能摸高，大量小專家向創(chuàng)新普及，未來兩種方案并存。

同時，DeepSeek采用的大規(guī)?？绻?jié)點專家并行，實現(xiàn)性能、吞吐量和并發(fā)用戶數(shù)量的顯著提升，成本大幅度降低，也為大模型推理系統(tǒng)采用大規(guī)?？绻?jié)點專家并行方案提供了可行性。

大規(guī)模專家并行EP，就是將專家Expert分布到更多的卡上，可以減少每張卡權(quán)重加載的時延，減少權(quán)重的顯存占用，能夠顯著的提升單卡并行的路數(shù)(batch size)。每個專家計算路數(shù)的提升可以提高矩陣乘的效率，從而實現(xiàn)更大的吞吐和更低的時延。同時大規(guī)模專家并行EP，更多專家也帶來負(fù)載均衡、卡間通信的挑戰(zhàn)。

盡管大規(guī)?？绻?jié)點專家并行集群推理能夠降低成本，但在實際應(yīng)用中仍面臨專家動態(tài)均衡與通信時延等挑戰(zhàn)。
昇騰大EP解決方案憑借多項關(guān)鍵技術(shù)有效解決了以上挑戰(zhàn)，針對專家負(fù)載不均的難題，通過自動尋優(yōu)、自動配比、自動預(yù)測、自動降解，實現(xiàn)備份節(jié)點和副本專家靈活可擴展、高可用和極致均衡。

針對All-to-All通信優(yōu)化的難題，昇騰大EP解決方案提出了雙流/多維混合并行，其中Prefill micro-batch雙流并行，可以實現(xiàn)計算和通信的相互掩蓋；MoE expert專家雙流并行，實現(xiàn)兩條數(shù)據(jù)流Stream的并行計算；Weight權(quán)重預(yù)取雙流并行，可以把訪存和通信并行起來，降低權(quán)重加載時間，提升效率。

此外，昇騰MLAPO融合算子也是關(guān)鍵技術(shù)之一，降低計算耗時70%。我們知道，MLA預(yù)處理階段，傳統(tǒng)方案多算子串行，頻繁占用內(nèi)存、通信等資源，整體計算耗時占比高。而昇騰MLAPO融合算子，將小算子融合成單一算子，Vector和Cube計算并行處理，減少開銷降低計算耗時。

在昇騰大EP推動技術(shù)普惠的同時，英偉達針對中國市場推出的H20芯片卻顯露出明顯短板。

H20作為英偉達針對中國市場發(fā)布的AI芯片，是用于大模型訓(xùn)練普遍采用的H100“低配版”，其AI算力僅為H100的15%，在推理方面，受性能的制約，H20只能在特定模型架構(gòu)，展現(xiàn)出一定的效能。像DeepSeek采用的是混合專家(MoE)架構(gòu)，在高batch size場景下，H20極易陷入性能瓶頸，導(dǎo)致時延顯著增加，從而無法充分發(fā)揮DeepSeek專家并行機制所具有的高吞吐量優(yōu)勢。因此，在大規(guī)模高并發(fā)的訓(xùn)推場景，H20難以滿足實際應(yīng)用需求。

當(dāng)DeepSeek證明“小算力亦可挑戰(zhàn)巨頭”，昇騰大EP則進一步回答：如何讓每一焦耳電力、每一美元投入，釋放最大AI價值。這場效率革命的意義遠超技術(shù)參數(shù)之爭——它標(biāo)志著AI競爭從“硬件堆疊”轉(zhuǎn)向“工程創(chuàng)新”，最終邁向產(chǎn)業(yè)普惠。（御風(fēng)）

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

算力革命再升級昇騰大EP如何重塑AI推理效率邊界

下一篇

算力革命再升級 昇騰大EP如何重塑AI推理效率邊界

下一篇

算力革命再升級昇騰大EP如何重塑AI推理效率邊界