阿里云發(fā)布全棧AI負(fù)載高可用 與用戶共建AI時代云上IT新治理

12月17日上午,在中國信息通信研究院主辦的2024第五屆“GOLF+IT新治理領(lǐng)導(dǎo)力論壇”主論壇上,阿里云重磅發(fā)布了全棧AI負(fù)載高可用架構(gòu),以滿足AI大模型企業(yè)級應(yīng)用在大規(guī)模參數(shù)量、復(fù)雜結(jié)構(gòu)和高性能算力背景下,對云服務(wù)處理能力可擴(kuò)展性、服務(wù)連續(xù)性、服務(wù)質(zhì)量和故障快速恢復(fù)的需求。

以為生成式AI 打造持續(xù)的卓越用戶體驗為目的,阿里云全棧AI負(fù)載高可用架構(gòu)可達(dá)到GPU故障預(yù)測準(zhǔn)確率92%,千卡規(guī)模集群連續(xù)訓(xùn)練有效時長大于99%,秒級模型自動保存、分鐘級故障恢復(fù);每分鐘10000個pod擴(kuò)展,分鐘級自動擴(kuò)容;核心模型服務(wù)99.99%的API SLA,模型應(yīng)用服務(wù)全鏈路可觀測等重要的AI業(yè)務(wù)高可用目標(biāo),在大規(guī)模數(shù)據(jù)處理和訓(xùn)推場景下,實現(xiàn)了對Gen AI應(yīng)用業(yè)務(wù)連續(xù)性、響應(yīng)速度、穩(wěn)定性和安全性的全面保障。

在論壇上,2025年中國數(shù)字化治理領(lǐng)域最新評估結(jié)果揭曉,阿里云成為首批通過信通院“企業(yè)用云治理能力成熟度評估”評測的兩家企業(yè)之一,同時獲得該項能力評估最高等級。

阿里云全棧AI負(fù)載高可用架構(gòu)正式發(fā)布

在AI算力需求逐漸超越通用需求的今天,以GenAI為代表的應(yīng)用場景和技術(shù)倍增,云上企業(yè)需要處理和存儲的數(shù)據(jù)量呈指數(shù)增長,AI驅(qū)動的應(yīng)用在高負(fù)載情況下,對保障業(yè)務(wù)的連續(xù)性、響應(yīng)速度、穩(wěn)定性和安全性均提出了更高要求。

為此,阿里云在升級云平臺自身的技術(shù)服務(wù)能力的同時,將GPU、異構(gòu)算力集群、容器集群、存儲、向量數(shù)據(jù)庫、機(jī)器學(xué)習(xí)平臺等AI負(fù)載高可用全面融入云平臺架構(gòu)設(shè)計,圍繞大模型訓(xùn)練微調(diào)、推理、多模態(tài)數(shù)據(jù)處理等環(huán)節(jié),構(gòu)建具備“高可用模型訓(xùn)練、靈活彈性的推理資源、數(shù)據(jù)高可靠”特性的全棧AI負(fù)載高可用架構(gòu),實現(xiàn)了從通用負(fù)載向AI負(fù)載的可用性演進(jìn),為客戶AI業(yè)務(wù)構(gòu)建提供穩(wěn)定的業(yè)務(wù)服務(wù)和出色的用戶體驗。

阿里云發(fā)布全棧AI負(fù)載高可用 與用戶共建AI時代云上IT新治理

在高可用模型訓(xùn)練方面,阿里云AI基礎(chǔ)設(shè)施高可用能力融入云服務(wù)整體架構(gòu)設(shè)計,基于AI算法的故障預(yù)測,實現(xiàn)訓(xùn)推環(huán)節(jié)的性能瓶頸分析和潛在故障分析,GPU故障預(yù)測準(zhǔn)確率達(dá)92%,同時將異常預(yù)測接入自愈鏈路,訓(xùn)練恢復(fù)自愈率超90%、千卡規(guī)模集群連續(xù)訓(xùn)練有效時長大于99%,實現(xiàn)秒級模型自動保存、分鐘級故障恢復(fù);同時,CPFS 高性能存儲集群,在超大集群中 20TB/s 的吞吐能力,支持更大及更加頻繁的 Checkpoint 讀寫,能夠更好地防止數(shù)據(jù)丟失,并提升訓(xùn)練的穩(wěn)定性和可靠性。在網(wǎng)絡(luò)層面,阿里云自研的高性能網(wǎng)絡(luò),業(yè)界首創(chuàng)雙平面的高可用網(wǎng)絡(luò)架構(gòu),網(wǎng)絡(luò)Link和設(shè)備中斷,訓(xùn)練任務(wù)不中斷。

在推理資源方面,阿里云容器計算服務(wù)ACS的彈性能力實現(xiàn)每分鐘可以進(jìn)行10000個pod擴(kuò)展,分鐘級自動擴(kuò)容;PAI-EAS模型在線服務(wù),適用于實時推理、近實時異步推理等多種AI推理場景,能感知每個請求的執(zhí)行進(jìn)度,做到更公平的任務(wù)調(diào)度,提高擴(kuò)縮容效率。同時,阿里云將跨區(qū)域的主動式重路由技術(shù)運(yùn)用到數(shù)據(jù)中心間的通信,從而在跨數(shù)據(jù)中心推理網(wǎng)絡(luò)上,達(dá)到跨域帶寬業(yè)界最高的 99.995% SLA,實現(xiàn)秒級內(nèi)重新路由,提供一個更加穩(wěn)定的網(wǎng)絡(luò)通信延遲。

對于在實時語音交互、實時AI搜索等高性能場景有推理需求的客戶,阿里云百煉模型服務(wù)平臺,基于預(yù)訓(xùn)練模型為用戶提供模型推理與應(yīng)用構(gòu)建托管服務(wù),核心模型服務(wù)API達(dá)到 99.99% SLA,高性能場景核心用戶用例中的首包延時小于300毫秒,能夠有效解決應(yīng)用開發(fā)、模型調(diào)用等過程中的跨區(qū)域TPM限制、高并發(fā)需求下API響應(yīng)變慢等問題,提升Gen AI應(yīng)用推理與構(gòu)建時的用戶體驗。

在數(shù)據(jù)高可靠方面,阿里云數(shù)據(jù)存儲與數(shù)據(jù)庫服務(wù)面向不同計算引擎、多種AI 框架進(jìn)行了深度集成,形成承載PB級甚至EB級大規(guī)模數(shù)據(jù)統(tǒng)一的存儲底座,同城冗余容災(zāi),高達(dá)99.995% SLA,數(shù)據(jù)多副本冗余、大文件斷點(diǎn)續(xù)傳、批量和多線程數(shù)據(jù)操作保障數(shù)據(jù)服務(wù)高可靠,向上支撐面向單AZ, 雙AZ, 三AZ及跨Region的高可用服務(wù),跨Region AI數(shù)據(jù)的就近讀寫和負(fù)載均衡,滿足AI數(shù)據(jù)多活的強(qiáng)一致性,AI數(shù)據(jù)冷備、熱備、故障自動切換,解決AI數(shù)據(jù)故障風(fēng)險。

AI時代與用戶共建云上的IT新治理

AI時代的浪潮中,企業(yè)對于高可用架構(gòu)的需求不僅僅停留在節(jié)點(diǎn)的穩(wěn)定性上,而是在更高的層面追求智能化運(yùn)營。阿里云全棧AI負(fù)載的高可用架構(gòu)已為企業(yè)奠定了堅實的技術(shù)基礎(chǔ),而進(jìn)一步的挑戰(zhàn)則在于如何提升云上系統(tǒng)的運(yùn)維管理與治理能力。通過與用戶攜手,阿里云致力于在云環(huán)境中構(gòu)建一個AI-Native的智能化、自動化和可持續(xù)的IT治理體系,為企業(yè)的創(chuàng)新之路保駕護(hù)航。

阿里云根據(jù)多年服務(wù)客戶的經(jīng)驗總結(jié)為一系列的方法論和架構(gòu)設(shè)計原則,推出了阿里云卓越架構(gòu)Well-Architeched Framework,意在幫助企業(yè)在云上構(gòu)建一個安全、穩(wěn)定、高效的應(yīng)用環(huán)境。面向AI技術(shù)融入帶來的更復(fù)雜更大規(guī)模的,根據(jù)云計算的彈性、實時交付、自助化等特點(diǎn),阿里云卓越架構(gòu)進(jìn)一步升級了用云企業(yè)運(yùn)維管理和治理規(guī)則基線的最佳實踐,依靠Well-Architeched云卓越架構(gòu)來學(xué)習(xí)-度量-優(yōu)化,落地治理潛在的風(fēng)險隱患,從安全、穩(wěn)定、效率、成本、性能五大支柱全面提升系統(tǒng)整體韌性和運(yùn)營效率。

阿里云發(fā)布全棧AI負(fù)載高可用 與用戶共建AI時代云上IT新治理

阿里云開放平臺負(fù)責(zé)人何登成表示,“在云上構(gòu)建可靠的系統(tǒng)是云廠商與用戶共同的責(zé)任。云廠商負(fù)責(zé)提供云平臺的可靠性,確保提供的云服務(wù)可用性符合或超過阿里云服務(wù)等級協(xié)議;用戶需要根據(jù)業(yè)務(wù)需求,選擇合適的產(chǎn)品服務(wù),并根據(jù)云相關(guān)文檔的指導(dǎo)搭建高可用架構(gòu),來確保云上應(yīng)用的可靠性。”

阿里云發(fā)布全棧AI負(fù)載高可用 與用戶共建AI時代云上IT新治理

尤其在AI迅猛發(fā)展的今天,企業(yè)更應(yīng)讓業(yè)務(wù)系統(tǒng)利用現(xiàn)代云平臺的基礎(chǔ)設(shè)施達(dá)到高可用,總結(jié)成三個"面向":面向失敗的設(shè)計架構(gòu),面向精細(xì)的運(yùn)維管控,面向風(fēng)險的應(yīng)急快恢。同時,用戶可以在建設(shè)持續(xù)穩(wěn)定的云環(huán)境過程中,面向AI并結(jié)合AI,通過良好的AI模型訓(xùn)推架構(gòu)設(shè)計、AI數(shù)據(jù)資產(chǎn)處理與存儲、智能診斷與風(fēng)險預(yù)測等手段,進(jìn)一步提升系統(tǒng)可用性、可靠性、可持續(xù)性。

阿里云獲信通院企業(yè)用云治理能力成熟度評估最高等級

據(jù)信通院發(fā)布的《企業(yè)用云治理能力成熟度分級要求》,企業(yè)用云治理能力成熟度評估共分為L1-L5共5個等級,分別為L1基礎(chǔ)級、L2應(yīng)用級、L3優(yōu)秀級、L4先進(jìn)級、L5卓越級。該分級要求不僅適用于對云服務(wù)使用方用云治理能力成熟度進(jìn)行評估,也適用于對云服務(wù)提供商云服務(wù)治理產(chǎn)品、技術(shù)能力成熟度進(jìn)行評估。阿里云測評結(jié)果為L4+,是目前階段云服務(wù)提供商實際獲得的最高等級。

此前,阿里云企業(yè)用云治理能力曾兩度獲得信通院評測認(rèn)可,包括2022年“企業(yè)云治理能力成熟度模型”獲信通院科技治理領(lǐng)域年度明星解決方案及產(chǎn)品;2023年“云治理中心”獲信通院科技治理領(lǐng)域年度明星解決方案。

阿里云發(fā)布全棧AI負(fù)載高可用 與用戶共建AI時代云上IT新治理

今年,針對企業(yè)用云發(fā)展路徑、企業(yè)云治理發(fā)展趨勢分析與洞察,阿里云聯(lián)合埃森哲發(fā)布《云治理企業(yè)成熟度發(fā)展2024年度報告》(https://developer.aliyun.com/ebook/8419),報告調(diào)研取樣來自400多家企業(yè)客戶,橫跨互聯(lián)網(wǎng)、金融、新零售、交通等多個行業(yè),旨在幫助用戶理解云治理概念、企業(yè)用云實踐的現(xiàn)狀及變遷趨勢,并基于云治理框架的五大分類(即穩(wěn)定性、安全合規(guī)、成本效益、高效性能、卓越運(yùn)營),報告作為企業(yè)云上旅程的實踐樣本,為面向AI時代做好IT新治理和云上架構(gòu)優(yōu)化提供更多的參考與決策依據(jù)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )