“潤澤”千行百業(yè)數(shù)智化轉型,天翼云“息壤”重塑了一條智算“大河”

文 | 智能相對論

作者 | 陳泊丞

中國是大河文明的典型代表,早期的中華民族逐水而居,依托“母親河”兩岸的繁榮生態(tài)繁衍生息,孕育了千年傳承的文明。而大河流域,沃野千里,也正是生態(tài)最繁榮的場地。

今天,以AI、云計算等為代表的前沿技術高速發(fā)展,以算力為主導的新產業(yè)形態(tài)加速到來。特別是大模型和生成式AI的崛起,對算力的需求呈指數(shù)級增長。算力已經成為科技公司之間競爭乃至大國崛起的關鍵因素之一,無論是基礎算力還是智能算力,都在不斷尋求進化以滿足日益復雜的計算需求。

近日,以“AI賦能 共筑數(shù)字新生態(tài)”為主題的2024數(shù)字科技生態(tài)大會在廣州召開。會上,天翼云“息壤”平臺全新升級,從算力互聯(lián)調度平臺升級成為集算網調度、計算加速、模型訓推于一體的智算服務平臺,同時還發(fā)布了商用成果,為行業(yè)數(shù)智化轉型提供了智算服務的國家云平臺新形態(tài),逐步構建起繁榮的“息壤”智算生態(tài)體系。

不難發(fā)現(xiàn),隨著“息壤”的迭代演進及大規(guī)模商用動作,“算力”這一重要資源也在積極調動起來,如河水一般向千行百業(yè)流淌,助力其完成數(shù)智化轉型,并孕育出新的產業(yè)業(yè)態(tài)與生態(tài)。而基于這些持續(xù)完善的布局,天翼云正具備重塑智能算力產業(yè)“大河文明”的生態(tài)潛力。

積流成河智算產業(yè)“大河”有了發(fā)源地

“且夫水之積也不厚,則其負大舟也無力;覆杯水于坳堂之上,則芥為之舟?!鼻f子在其著作《逍遙游》中深刻地闡述了一個關于自然生態(tài)的道理:只有當水量足夠豐富、積聚到一定程度的時候,才能形成可以承載萬物的大河,否則就如同杯水車薪,難以成就大事。

水之于大河的意義,十分明確——如果沒有充足的水,則大河難成。今天,充足的算力如同河流中的水一樣,是構建強大、高效且富有活力的技術生態(tài)系統(tǒng)的基礎,進而才能支撐起人工智能、云計算、機器學習、深度學習等前沿技術的發(fā)展。

因此,近年來,全國范圍內掀起了一股算力中心建設熱潮,截至2024年6月,中國已建和正在建設的智算中心超過250個。其背后的根本原因就在于,在當前AI產業(yè)的高速發(fā)展中,充足的算力資源是必要的保障。

與此同時,隨著人工智能產業(yè)的升級與深化,特別是數(shù)據(jù)量的爆發(fā)性增長和算法復雜度的增加,傳統(tǒng)的基礎算力很難滿足日益增長的需求。因此,針對性更強、計算效率更高的智能算力逐漸成為研究和開發(fā)的重點。

區(qū)別于傳統(tǒng)算力,智能算力不僅強調計算的速度和效率,更注重于如何高效地支持智能算法和模型的訓練與推理。例如,在自動駕駛、智慧醫(yī)療、智慧城市等領域中,智能算力可以顯著提高系統(tǒng)的反應速度、準確性和可靠性。

算力的定位相當于大河之“水”,而在智算產業(yè)的“大河”中首先要有充足的資源供給,才能“潤澤”千行百業(yè)。對此,天翼云深諳其中的道理,以國云擔當自建了豐富、形態(tài)多樣的智能算力資源。

天翼云規(guī)劃并建設全國“2+3+7+X”公共智算云池,在京津冀、長三角地區(qū)建設兩大萬卡智算集群;在內蒙古、貴州、寧夏等清潔能源集聚地建設智算中心,為用戶提供綠色算力。此外,天翼云還在280多個地市的一城一池節(jié)點和1000多個邊緣節(jié)點按需下沉AI云電腦算力和推理算力。

至此,天翼云這朵國云就有了充足且豐富的“水”資源。然而,如果只是“積水”尚不足以成河,接下來還需要讓水流動起來,“流水”方能成河。換句話說,如何讓算力流動起來恰恰是重塑智算產業(yè)生態(tài)“大河”最關鍵的一步。

由此,天翼云“息壤”一體化智算平臺圍繞著如何讓算力動起來、連起來、用起來這一主題加速迭代演進,并帶來一系列創(chuàng)新成果,充分呈現(xiàn)了算力賦能千行百業(yè)的能力與價值。

流水成河「國云」走到了最關鍵的一步

現(xiàn)階段,“云智一體”是大勢所趨。基于此發(fā)展趨勢,天翼云構建以“息壤”為核心的一體化智算服務能力體系,為用戶提供“供得上、用得起、用得好”的算力服務,全力使能各行業(yè)數(shù)智化躍遷。

此次,天翼云“息壤”平臺進一步演進,升級成為集算網調度、計算加速、模型訓推于一體的智算服務平臺,并沿著算網調度、智算服務及智算生態(tài)三個方面進行應用落地,逐漸完成了智能算力產業(yè)“大河文明”的重塑。

一、以一體化算網調度,解決智能算力的供給難點

為什么“水”需要流動起來?換句話說,為什么算力需要調度?因為算力的供給與需求之間存在著巨大的差距,難以匹配。根據(jù)IDC發(fā)布的報告,全球數(shù)據(jù)量每年增長約60%,但算力每年的增速僅為10%,供與求的增速非常不平衡。

與此同時,我國的算力資源地域分布廣泛,規(guī)模不一,又進一步加劇了供求失衡的情況。再加上大多數(shù)算力運營主體還不具備足夠強大的算力調度能力,從而導致算力的利用率非常低,很難滿足本土智能產業(yè)的高速發(fā)展。

秉持國云使命,天翼云不斷夯實算力基礎設施,并在技術上進行多方面的突破,致力于解決算力供需不匹配難題?!跋⑷馈币惑w化智算平臺通過算力插件和算力網關,率先實現(xiàn)了算力的統(tǒng)一、高效和云化接入,再通過算數(shù)協(xié)同和多級算力互聯(lián)調度,實現(xiàn)了算數(shù)網的一體化調度,做到數(shù)隨算走,算隨數(shù)動,從而使得調度區(qū)域更廣,算力更泛在。

基于這些技術創(chuàng)新與布局,天翼云得以面向公共算力服務場景,為高??蒲?、智能汽車、央國企等行業(yè)提供充沛算力。同時,又面向城市算力網場景持續(xù)擴大應用范圍,并已經為深圳、北京、上海、蘇州等多個城市構建城市算力網。此外,天翼云還面向高??蒲袌鼍?,通過整合校內外資源,內置多款科研應用,提供一站式科研實訓環(huán)境,服務了多所高校的科研團隊。

二、以一站式智算服務,激發(fā)智能算力的應用價值

當前,AI產業(yè)正在經歷高速發(fā)展期,大模型的參數(shù)規(guī)模也在快速擴展,從百億級、千億級到萬億級甚至更大。這種大規(guī)模的增長帶來了對計算能力前所未有的需求——更大的模型往往需要更多的計算資源來進行有效的訓練。譬如,國產單集群萬卡訓練場景便是應對大模型參數(shù)規(guī)模不斷擴展挑戰(zhàn)的一種有效解決方案。

然而,構建高性能計算基礎設施并不簡單。面向國產單集群萬卡訓練場景,天翼云開展了一系列技術創(chuàng)新,比如通過自研算力加速技術、AI訓練框架和斷點續(xù)訓能力,最終實現(xiàn)了訓練效率的大幅提升,使得模型訓練恢復時間從小時級降低到分鐘級,有效訓練時長占比提升到國內領先水平,有力支撐起中國電信星辰萬億級參數(shù)大模型的訓練。

目前,天翼云“息壤”一體化智算平臺具備一站式高性能計算服務。其中,在大算力需求方面,天翼云建設PB級并行文件存儲,并組建低延時超大規(guī)模RDMA網絡,通過計算、內存和通訊的多維優(yōu)化,提升了綜合算效。在性能方面,對AI框架進行升級、存儲加速,實現(xiàn)checkpoint文件快速保存、加載。在穩(wěn)定性方面,通過多項指標的監(jiān)控分析,實現(xiàn)故障訓前發(fā)現(xiàn),有效控制大模型訓練中斷恢復時長,實現(xiàn)訓練任務長期穩(wěn)定、高可用運行。

此外,為了讓國產算力更好用,天翼云還提供模型適配和算子開發(fā)服務,以及全流程可視化的模型遷移適配工具鏈,并在多個項目中得到驗證,顯著降低了國產算力的大模型訓推門檻,使模型適配時間大幅縮短,訓練性能大幅提升。

三、以全方位智算生態(tài),推動智能算力的普惠發(fā)展

大河潤澤四方,方有沃野千里。在AI產業(yè)的發(fā)展進程中,智算生態(tài)的構建有著不可或缺的價值,不僅促進智能算力本身的進步,更重要的是它為各行各業(yè)提供了強有力的支撐,使更多人能夠享受到智能化帶來的便利和發(fā)展機遇,最終實現(xiàn)智能算力的普惠式發(fā)展。

一方面,通過建立完善的智算生態(tài)系統(tǒng),可以提供一系列工具、平臺和服務,使得開發(fā)者和企業(yè)更容易獲得并使用智能算力。天翼云全面開放“息壤”平臺的智算能力,打造魔樂開發(fā)者社區(qū),以推動開發(fā)者廣泛應用國產化算力。目前,魔樂社區(qū)已發(fā)布5800個模型和145個應用。同時,社區(qū)還聯(lián)合多家伙伴,推出“國產算力模型應用創(chuàng)新計劃”,孵化國產原生模型。

另一方面,產業(yè)的發(fā)展離不開人才隊伍的支撐。智算生態(tài)的構建是挖掘、培育新型專業(yè)人才的重要土壤,越來越多專業(yè)人才在完善的生態(tài)系統(tǒng)中涌現(xiàn),將有力推動行業(yè)的快速發(fā)展。比如,“天翼云息壤杯”高校AI大賽就已吸引超3800支參賽隊伍,不僅為國家和社會挖掘和培養(yǎng)AI人才,又促進了國產算力的技術成熟和生態(tài)繁榮。

河上載舟,智算產業(yè)商用成果加速涌現(xiàn)

在充足的水資源(算力)供給下,天翼云“息壤”一體化智算平臺逐步打造出一條寬闊的智算產業(yè)“大河”。在這條“大河”上,智能算力得以有效供給,助力國產大模型訓推、落地,還孕育了全方位的智算生態(tài),“潤澤”千行百業(yè),推動國產AI的加速發(fā)展。

與此同時,基于強大的國云智算底座和完善的客戶服務,天翼云廣泛賦能千行百業(yè)的業(yè)務創(chuàng)新,服務政務、工業(yè)、電商、醫(yī)療、教育等眾多行業(yè)客戶,覆蓋算力管理、智算服務、AI應用等等。簡單來說,在天翼云這條智算產業(yè)“大河”上,已是“百舸爭流”的壯闊景象。

其中,天翼云的高性能智算服務就支撐了蘑菇街旗下AI商拍工具WeShop唯象的成功創(chuàng)新與應用。具體而言,天翼云基于上海臨港的萬卡智算資源池,為WeShop提供了海量且可快速擴容的智算資源。同時,其并行文件存儲服務也為蘑菇街打造了高性能的存儲底座,顯著提升了數(shù)據(jù)讀取速度等,全方位保障WeShop唯象服務全球近百萬電商從業(yè)者。

作為本土領先的對話式AI平臺公司,思必馳也在天翼云的高性能計算資源及良好的存儲解決方案支持下完成諸多AI大項目的創(chuàng)新和落地。其中,在算力調度方面,天翼云通過自研的調度系統(tǒng),協(xié)助思必馳DFM-2大模型調度GPU、NPU、CPU等異構算力資源,大規(guī)模訓練上云1個月,即可完成數(shù)十億規(guī)模大模型所有階段訓練和效果評估。在訓練能力打造方面,天翼云還支持多種模型訓練方式,不僅可以提升大模型訓練平臺的數(shù)據(jù)量,更大幅縮短了訓練周期和交付進度。

這些商用成果的涌現(xiàn),都充分說明了天翼云“息壤”一體化智算平臺對本土AI產業(yè)的發(fā)展以及千行百業(yè)的數(shù)智化轉型發(fā)揮著至關重要的作用。

在天翼云“息壤”一體化智算平臺的規(guī)模商用進程中,我們可以清晰地看到,智能算力的發(fā)展如同一條奔騰不息的大河,深刻地影響著社會的方方面面。隨著技術的不斷進步和社會需求的變化,這條“大河”將繼續(xù)流淌,開拓新的領域,創(chuàng)造無限可能。

*本文圖片均來源于網絡

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

極客網企業(yè)會員

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2024-12-05
“潤澤”千行百業(yè)數(shù)智化轉型,天翼云“息壤”重塑了一條智算“大河”
“潤澤”千行百業(yè)數(shù)智化轉型,天翼云“息壤”重塑了一條智算“大河”

長按掃碼 閱讀全文