中國(guó)電信傅志仁:國(guó)內(nèi)國(guó)外雙輪驅(qū)動(dòng),推動(dòng)智算網(wǎng)絡(luò)相關(guān)接口和協(xié)議標(biāo)準(zhǔn)化

7月11日消息(水易)在近日舉行的“2024算網(wǎng)融合產(chǎn)業(yè)發(fā)展大會(huì)”主論壇上,中國(guó)電信研究院副院長(zhǎng)傅志仁分享了中國(guó)電信在智算網(wǎng)絡(luò)技術(shù)的探索和實(shí)踐。

傅志仁表示,人工智能引爆算力需求,模型向百億級(jí)參數(shù)演進(jìn)。雖然隨著創(chuàng)新優(yōu)化,未來訓(xùn)練計(jì)算量增長(zhǎng)放緩,但仍需要十萬卡級(jí)GPU集群。而國(guó)內(nèi)受需求、技術(shù)等方面制約,十萬卡集群短期建設(shè)及商用可能性較小。

另外,傅志仁指出:“算力不會(huì)走路,能走的就是數(shù)據(jù)?!倍?a href="http://m.digitalhealthexpert.com/AI_1.html" target="_blank" class="keylink">AI大模型訓(xùn)練/推理等工作需要在大量的計(jì)算單位中傳遞海量數(shù)據(jù),需要智算網(wǎng)絡(luò)具備超大規(guī)模、超低時(shí)延、超大帶寬、超高可靠等關(guān)鍵特征。

面向當(dāng)下萬卡場(chǎng)景,解決國(guó)產(chǎn)集群性能低、生態(tài)差、效率低的問題,以及面向未來更大規(guī)模場(chǎng)景,實(shí)現(xiàn)高性能計(jì)算和網(wǎng)絡(luò)根技術(shù)的自主掌控是關(guān)鍵。傅志仁介紹,中國(guó)電信的智算基礎(chǔ)研發(fā)布局,主要從芯片硬件、軟件生態(tài)、互聯(lián)能力、管理調(diào)度四個(gè)層面出發(fā)。

會(huì)上,傅志仁重點(diǎn)介紹了中國(guó)電信在互聯(lián)能力層的打造,以AIDC為核心進(jìn)行組網(wǎng),綜合固移融合的入算網(wǎng)絡(luò)、多機(jī)互聯(lián)的算內(nèi)網(wǎng)絡(luò)、IP/傳輸?shù)乃汩g網(wǎng)絡(luò)等能力,形成大規(guī)模、高效、無損、靈活的高性能智算網(wǎng)絡(luò),提升集群算力性能,破解算力供給發(fā)展難題,助力打造云網(wǎng)融合3.0新型算力基礎(chǔ)設(shè)施。

入算網(wǎng)絡(luò)方面,數(shù)字經(jīng)濟(jì)下各行各業(yè)都有海量數(shù)據(jù)產(chǎn)生,需要進(jìn)行存儲(chǔ)、傳輸以及處理。當(dāng)前海量數(shù)據(jù)的傳送大多需要靠硬盤搬運(yùn)或高價(jià)格的專線傳輸,無法同時(shí)滿足“快、好、惠”。

如何破解這一“不可能三角”問題,中國(guó)電信一是推出具有“泛在接入、隨建隨用、算網(wǎng)協(xié)同、安全可信”特性的“超算快線”產(chǎn)品,提供海量數(shù)據(jù)異屬、異構(gòu)、異域“入算”的統(tǒng)一解決方案。

傅志仁介紹,這一方案在持續(xù)完善網(wǎng)絡(luò)覆蓋、提供智算高速泛在入口的基礎(chǔ)上,還針對(duì)業(yè)務(wù)的偶發(fā)性特點(diǎn),提出定時(shí)定向的大規(guī)模數(shù)據(jù)傳輸方案,并通過定制化API接口讓用戶自助申請(qǐng)網(wǎng)絡(luò)閑時(shí)的帶寬資源,從而將原本帶寬受限的網(wǎng)絡(luò)線路彈性擴(kuò)容至高帶寬專線,并采用資源預(yù)約的機(jī)制將數(shù)據(jù)傳輸至智算中心進(jìn)行處理,在滿足超大規(guī)模數(shù)據(jù)彈性傳輸需求的同時(shí),降低算力使用成本、增強(qiáng)用戶自服務(wù)能力。

算內(nèi)網(wǎng)絡(luò)方面,在大模型的訓(xùn)練過程中,每一輪迭代GPU之間均需要傳送海量梯度數(shù)據(jù),因此需要構(gòu)建GPU計(jì)算單元之間的FULL-MESH全互聯(lián)與高速通道。主要面臨兩大挑戰(zhàn),一是建設(shè)萬卡池全互聯(lián)理論上需要的5000萬條連接,二是機(jī)內(nèi)帶寬與機(jī)間帶寬不匹配,當(dāng)前機(jī)內(nèi)總線帶寬大于機(jī)間網(wǎng)絡(luò)帶寬。

面對(duì)這一因網(wǎng)絡(luò)能力不足導(dǎo)致算力效率降低的技術(shù)問題,業(yè)界主要從四個(gè)技術(shù)維度解決智算網(wǎng)絡(luò)端到端承載的效率問題,即集合通信庫、擁塞控制、流量控制和負(fù)載均衡,具體解決方案分別聚焦端側(cè)、網(wǎng)側(cè)和端網(wǎng)協(xié)同側(cè)。

同時(shí)中國(guó)電信開展新型RDMA擁塞控制技術(shù)創(chuàng)新,自研算法通過端側(cè)主動(dòng)探測(cè)感知網(wǎng)絡(luò)擁塞進(jìn)行精細(xì)化流控,有效提高收斂速度、控制交換機(jī)隊(duì)列長(zhǎng)度、降低小流延遲以及在NO-PFC/NO-ECN配置下避免丟包保證網(wǎng)絡(luò)穩(wěn)定性。

算間網(wǎng)絡(luò)方面,大模型訓(xùn)練需求下,智算中心規(guī)模受限,如何不新建/不穿墻打洞服務(wù)于大規(guī)模智算資源需求;同時(shí)電力供應(yīng)/機(jī)房空間成為大規(guī)模智算建設(shè)的瓶頸,需要解決單機(jī)房供電散熱、空間不足等問題。

傅志仁介紹,針對(duì)智算資源整合及分布式訓(xùn)練需求,可通過長(zhǎng)距RDMA等新技術(shù)將百公里距離的多個(gè)智算中心并聯(lián)成虛擬的大型智算中心節(jié)點(diǎn),目前已經(jīng)完成系列技術(shù)驗(yàn)證證明該技術(shù)方向可行。

“從理論到實(shí)踐需要標(biāo)準(zhǔn)化的支撐?!备抵救蕪?qiáng)調(diào),中國(guó)電信堅(jiān)持國(guó)際化和國(guó)產(chǎn)化兩條技術(shù)路線并舉的雙輪驅(qū)動(dòng)原則,聚焦國(guó)際UEC以及國(guó)內(nèi)CCSA等產(chǎn)業(yè)聯(lián)盟/標(biāo)準(zhǔn)組織,開展產(chǎn)業(yè)鏈對(duì)話、交流、合作,增強(qiáng)技術(shù)協(xié)作,統(tǒng)一共識(shí),將中國(guó)電信的網(wǎng)絡(luò)/業(yè)務(wù)/產(chǎn)品等需求納入規(guī)范,推動(dòng)智算網(wǎng)絡(luò)相關(guān)接口和協(xié)議的標(biāo)準(zhǔn)化。

傅志仁表示,希望產(chǎn)學(xué)研合作、產(chǎn)業(yè)聯(lián)盟、算力提供商、網(wǎng)絡(luò)供應(yīng)商、技術(shù)/服務(wù)提供商齊心協(xié)力,打造廣泛合作、生態(tài)開放、協(xié)同創(chuàng)新的智算基礎(chǔ)設(shè)施。中國(guó)電信也將不斷夯實(shí)網(wǎng)絡(luò)基礎(chǔ),深化云網(wǎng)融合3.0,打造新型智算基礎(chǔ)設(shè)施生態(tài),培育新質(zhì)生產(chǎn)力。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-07-11
中國(guó)電信傅志仁:國(guó)內(nèi)國(guó)外雙輪驅(qū)動(dòng),推動(dòng)智算網(wǎng)絡(luò)相關(guān)接口和協(xié)議標(biāo)準(zhǔn)化
中國(guó)電信傅志仁:國(guó)內(nèi)國(guó)外雙輪驅(qū)動(dòng),推動(dòng)智算網(wǎng)絡(luò)相關(guān)接口和協(xié)議標(biāo)準(zhǔn)化,C114訊 7月11日消息(水易)在近日舉行的“2024算網(wǎng)融合產(chǎn)業(yè)發(fā)展大會(huì)”主論壇上,中國(guó)電信研究

長(zhǎng)按掃碼 閱讀全文