4月23日消息(苡臻)在今日召開的“2025云網(wǎng)智聯(lián)大會”上,SNAI推委會榮譽主席、原中國電信科技委主任韋樂平發(fā)表“大模型驅(qū)動下智算網(wǎng)的發(fā)展趨勢”主題演講。他表示,當前智算中心遍地開花,國內(nèi)超280個,但GPU利用率很不均衡,飽的撐死,餓的餓死,平均不到30%。機內(nèi)總線帶寬與機間網(wǎng)絡(luò)帶寬不匹配,機間網(wǎng)絡(luò)帶寬太窄,算效不高。機內(nèi)總線架構(gòu)的開放性、兼容性和擴展性不理想。缺乏可盈利的商業(yè)模式。
韋樂平表示,生成式人工智能的聯(lián)網(wǎng)技術(shù)主要包括以太網(wǎng)、IB(InfiniBand)、芯片光互連、PCIe、CXL(計算機快速鏈路)、OCS(光纖交換)等。
以太網(wǎng)是世界上規(guī)模最大的低成本聯(lián)網(wǎng)技術(shù),但是,其傳統(tǒng)形態(tài)和協(xié)議已經(jīng)不能滿足大集群聯(lián)網(wǎng)的苛刻性能需求。目前有三個改進方向:RoCE是一種基于以太網(wǎng)的RDMA。允許直接訪問遠程節(jié)點內(nèi)存,減小了數(shù)據(jù)傳遞時延,降低了CPU的使用率。適合GenAI應(yīng)用的需求;無損以太網(wǎng)在現(xiàn)有以太網(wǎng)基礎(chǔ)上進一步采用先進的流控、改進擁塞處理、優(yōu)化哈希算法等新技術(shù),性能大為改進,但是長尾時延仍偏高(5-10us),趕不上IB(1us),適合不高于2000GPU互連場景;超級以太網(wǎng)聯(lián)盟(UEC)從物理層、鏈路層、傳輸層和軟件層全面改進以太網(wǎng),具有優(yōu)異的負荷均衡、更好的網(wǎng)絡(luò)利用率和更短的時延,滿足GenAI和HPC所需,同時保留以太網(wǎng)生態(tài)系統(tǒng)的優(yōu)勢,期望性價比全面趕超IB。預(yù)計2026年起量。
IB是一種用于高性能計算的計算機網(wǎng)絡(luò),具備高寬帶、高擴展、高可靠、無阻塞、超低時延(1us)的特點。但其需要采用專用硬件IB交換機和IB網(wǎng)卡,成本較高,擴展性受限,產(chǎn)業(yè)生態(tài)較弱,過于封閉,由英偉達獨家控制。最適用高性能計算和高質(zhì)量大模型訓(xùn)練場景。
此外,芯片光互連技術(shù)還不成熟,標準缺失,預(yù)計最快2026年有產(chǎn)品;PCIe是一種計算機串行擴展總線技術(shù)。2025年計劃發(fā)布PCIe7.0版本,期望進一步提升至128GT/S能力;CXL是一種架構(gòu)在PCIe串行總線上的新接口協(xié)議和高速互聯(lián)技術(shù),長期看,CXL將導(dǎo)致現(xiàn)有服務(wù)器架構(gòu)的解構(gòu),將處理、內(nèi)存分別納入不同物理模塊,使能資源的查詢和共享,適應(yīng)大集群的訓(xùn)練需要和高性能計算的需要;OCS是一種以光纖通道為交換顆粒的大容量交換,近中期主要替代AIDC中的Spine層的電交換機,長期會進一步向外擴展。
韋樂平還提到了大模型訓(xùn)練智算拉遠的思考。市場需求層面,以網(wǎng)補算,提升閑散智算中心算力資源利用率。面對大批分散部署、利用率很低的小規(guī)模智算中心,若能通過網(wǎng)絡(luò)互聯(lián)形成一個大型的邏輯智算池來適應(yīng)規(guī)模日益增長的大模型訓(xùn)練,有望大幅提升閑散智算資源的利用率。
邁向未來,跨域訓(xùn)練是必然趨勢。據(jù)統(tǒng)計,大模型參數(shù)每1-2年增長10倍,而對應(yīng)的GPU芯片的算力僅增長2-4倍,遠低于模型規(guī)模的增速。隨著模型規(guī)模的日益擴大,單體的算力、電力、空間資源終將受限,可能需要在園區(qū)甚至更大范圍內(nèi)由多個智算中心互聯(lián)形成一個超級邏輯智算資源池,進行聯(lián)合訓(xùn)練才有可能支撐超大模型的訓(xùn)練。至于推理與具體業(yè)務(wù)場景和訪問量相關(guān),更需要跨域?qū)嵤?/p>
談及大模型訓(xùn)練智算拉遠的挑戰(zhàn),他表示,在復(fù)雜的商用場景下,面臨大量不同功能、性能的異構(gòu)GPU、規(guī)模不同的AIDC的互聯(lián)、不同業(yè)務(wù)場景、不同設(shè)備和不同組網(wǎng)方式、不同模型和不同參數(shù)的協(xié)同挑戰(zhàn)。
技術(shù)層面,存在帶寬收斂問題。無收斂帶寬普適性和前瞻性好,部署快,但成本太高;收斂比4-8時,帶寬成本可以降至10%之內(nèi),但是只適用特定業(yè)務(wù)場景下的特定模型拆分方式,缺乏普適性和前瞻性。同時,還存在功能和性能問題。拉遠后必然面對丟包、抖動乃至中斷故障等諸多挑戰(zhàn),對R0CE網(wǎng)絡(luò)的功能和性能有不少嚴格的要求。
統(tǒng)一管理和運維層面,現(xiàn)有固化的組織架構(gòu)和生產(chǎn)流程不適合快速部署邏輯統(tǒng)一的異地智算中心,需要對現(xiàn)有管理運維體系、生產(chǎn)流程、監(jiān)控管理平臺改造升級。
- 小接口撬動大產(chǎn)業(yè):從機頂盒新形態(tài)GPMI電視卡說起
- 塑造未來智能商業(yè)建筑格局的十大關(guān)鍵技術(shù)
- 山西省首個綜合性低空經(jīng)濟示范項目啟動
- 全國首張!美團第四代無人機獲低空物流全境覆蓋運營合格證
- 為什么DeepSeek的出現(xiàn)需要企業(yè)AI架構(gòu)采用無服務(wù)器方法
- 武漢鈞恒擬投資2億元建設(shè)光模塊生產(chǎn)研發(fā)基地
- 我國移動電話用戶突破18億 5G用戶占59.4%
- 我國千兆寬帶用戶達2.18億戶 占總用戶數(shù)的32.1%
- 內(nèi)蒙古算力規(guī)模達12萬P 90%為智能算力
- 深入解析5G技術(shù):關(guān)鍵術(shù)語與核心架構(gòu)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。