7月11日消息(水易)在近日舉行的“2024算網(wǎng)融合產(chǎn)業(yè)發(fā)展大會”主論壇上,中國電信研究院副院長傅志仁分享了中國電信在智算網(wǎng)絡技術的探索和實踐。
傅志仁表示,人工智能引爆算力需求,模型向百億級參數(shù)演進。雖然隨著創(chuàng)新優(yōu)化,未來訓練計算量增長放緩,但仍需要十萬卡級GPU集群。而國內(nèi)受需求、技術等方面制約,十萬卡集群短期建設及商用可能性較小。
另外,傅志仁指出:“算力不會走路,能走的就是數(shù)據(jù)?!倍?a href="http://m.digitalhealthexpert.com/AI_1.html" target="_blank" class="keylink">AI大模型訓練/推理等工作需要在大量的計算單位中傳遞海量數(shù)據(jù),需要智算網(wǎng)絡具備超大規(guī)模、超低時延、超大帶寬、超高可靠等關鍵特征。
面向當下萬卡場景,解決國產(chǎn)集群性能低、生態(tài)差、效率低的問題,以及面向未來更大規(guī)模場景,實現(xiàn)高性能計算和網(wǎng)絡根技術的自主掌控是關鍵。傅志仁介紹,中國電信的智算基礎研發(fā)布局,主要從芯片硬件、軟件生態(tài)、互聯(lián)能力、管理調(diào)度四個層面出發(fā)。
會上,傅志仁重點介紹了中國電信在互聯(lián)能力層的打造,以AIDC為核心進行組網(wǎng),綜合固移融合的入算網(wǎng)絡、多機互聯(lián)的算內(nèi)網(wǎng)絡、IP/傳輸?shù)乃汩g網(wǎng)絡等能力,形成大規(guī)模、高效、無損、靈活的高性能智算網(wǎng)絡,提升集群算力性能,破解算力供給發(fā)展難題,助力打造云網(wǎng)融合3.0新型算力基礎設施。
入算網(wǎng)絡方面,數(shù)字經(jīng)濟下各行各業(yè)都有海量數(shù)據(jù)產(chǎn)生,需要進行存儲、傳輸以及處理。當前海量數(shù)據(jù)的傳送大多需要靠硬盤搬運或高價格的專線傳輸,無法同時滿足“快、好、惠”。
如何破解這一“不可能三角”問題,中國電信一是推出具有“泛在接入、隨建隨用、算網(wǎng)協(xié)同、安全可信”特性的“超算快線”產(chǎn)品,提供海量數(shù)據(jù)異屬、異構、異域“入算”的統(tǒng)一解決方案。
傅志仁介紹,這一方案在持續(xù)完善網(wǎng)絡覆蓋、提供智算高速泛在入口的基礎上,還針對業(yè)務的偶發(fā)性特點,提出定時定向的大規(guī)模數(shù)據(jù)傳輸方案,并通過定制化API接口讓用戶自助申請網(wǎng)絡閑時的帶寬資源,從而將原本帶寬受限的網(wǎng)絡線路彈性擴容至高帶寬專線,并采用資源預約的機制將數(shù)據(jù)傳輸至智算中心進行處理,在滿足超大規(guī)模數(shù)據(jù)彈性傳輸需求的同時,降低算力使用成本、增強用戶自服務能力。
算內(nèi)網(wǎng)絡方面,在大模型的訓練過程中,每一輪迭代GPU之間均需要傳送海量梯度數(shù)據(jù),因此需要構建GPU計算單元之間的FULL-MESH全互聯(lián)與高速通道。主要面臨兩大挑戰(zhàn),一是建設萬卡池全互聯(lián)理論上需要的5000萬條連接,二是機內(nèi)帶寬與機間帶寬不匹配,當前機內(nèi)總線帶寬大于機間網(wǎng)絡帶寬。
面對這一因網(wǎng)絡能力不足導致算力效率降低的技術問題,業(yè)界主要從四個技術維度解決智算網(wǎng)絡端到端承載的效率問題,即集合通信庫、擁塞控制、流量控制和負載均衡,具體解決方案分別聚焦端側(cè)、網(wǎng)側(cè)和端網(wǎng)協(xié)同側(cè)。
同時中國電信開展新型RDMA擁塞控制技術創(chuàng)新,自研算法通過端側(cè)主動探測感知網(wǎng)絡擁塞進行精細化流控,有效提高收斂速度、控制交換機隊列長度、降低小流延遲以及在NO-PFC/NO-ECN配置下避免丟包保證網(wǎng)絡穩(wěn)定性。
算間網(wǎng)絡方面,大模型訓練需求下,智算中心規(guī)模受限,如何不新建/不穿墻打洞服務于大規(guī)模智算資源需求;同時電力供應/機房空間成為大規(guī)模智算建設的瓶頸,需要解決單機房供電散熱、空間不足等問題。
傅志仁介紹,針對智算資源整合及分布式訓練需求,可通過長距RDMA等新技術將百公里距離的多個智算中心并聯(lián)成虛擬的大型智算中心節(jié)點,目前已經(jīng)完成系列技術驗證證明該技術方向可行。
“從理論到實踐需要標準化的支撐?!备抵救蕪娬{(diào),中國電信堅持國際化和國產(chǎn)化兩條技術路線并舉的雙輪驅(qū)動原則,聚焦國際UEC以及國內(nèi)CCSA等產(chǎn)業(yè)聯(lián)盟/標準組織,開展產(chǎn)業(yè)鏈對話、交流、合作,增強技術協(xié)作,統(tǒng)一共識,將中國電信的網(wǎng)絡/業(yè)務/產(chǎn)品等需求納入規(guī)范,推動智算網(wǎng)絡相關接口和協(xié)議的標準化。
傅志仁表示,希望產(chǎn)學研合作、產(chǎn)業(yè)聯(lián)盟、算力提供商、網(wǎng)絡供應商、技術/服務提供商齊心協(xié)力,打造廣泛合作、生態(tài)開放、協(xié)同創(chuàng)新的智算基礎設施。中國電信也將不斷夯實網(wǎng)絡基礎,深化云網(wǎng)融合3.0,打造新型智算基礎設施生態(tài),培育新質(zhì)生產(chǎn)力。
- 用于地面雷達設備標校和RCS測量!我國成功發(fā)射天平三號A星02星
- 華為彭紅華:三項工作、五個舉措,構建全方位實戰(zhàn)化ICT人才賦能體系
- 支持5G-A網(wǎng)絡!蘋果iOS 18.4發(fā)布
- 支持5G-A網(wǎng)絡!蘋果iOS 18.4發(fā)布
- 邊緣計算:彌合數(shù)據(jù)中心與設備之間的差距
- 企業(yè)為何需要融合AI的BI進行實時預測分析
- 什么是具身智能:人工智能的新前沿
- 5G及未來:人工智能與下一代電信服務的協(xié)同作用
- 中國電信旗下企業(yè)轉(zhuǎn)讓智慧城市(合肥)標準化研究院30%股權
- 中國移動:“寬帶邊疆”提前完成,數(shù)字鄉(xiāng)村“五新升級”
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。