MLPerf Storage揭榜,「存儲」掛帥,驅動AI上演“飛馳人生”

文 | 智能相對論

作者 | 陳泊丞

AI產業(yè)鏈各個核心要素的“含金量”還在不斷提升,其中存儲的價值就在強勢增長。

日前,MLCommons協(xié)會發(fā)布最新MLPerf? Storage v1.0 AI存儲基準測試成績。浪潮信息分布式存儲平臺AS13000G7表現出眾,在3D-UNet和CosmoFlow兩個模型共計8項測試中,斬獲5項性能全球第一。

且不說本土廠商成功“打榜”的事情,光是MLPerf? Storage v1.0 AI存儲基準測試成績的發(fā)布就釋放出不少重磅信息。

MLPerf?是影響力最廣的國際AI性能基準評測,由圖靈獎得主大衛(wèi)·帕特森(David Patterson)聯合谷歌、斯坦福大學、哈佛大學等頂尖學術機構共同發(fā)起,2023年首次推出存儲基準性能測試。這是全球首個且唯一的AI/ML存儲基準測試,旨在通過準確建模ML工作負載所產生的I/O模式來幫助解決存算平衡問題,為ML/AI模型開發(fā)者選擇存儲解決方案提供權威的參考依據。

現階段,隨著AI產業(yè)走向深實,市場既重視存儲,也對存儲解決方案提出了新的技術需求。以今年MLPerf? Storage v1.0的評測標準來看,區(qū)別去年的v0.5版本,v1.0版本做了諸多技術相關的調整,一方面更注重存儲帶寬的峰值承載能力,重點考察在滿足高性能GPU一定利用率的前提下,存儲系統(tǒng)能夠為AI集群提供的總帶寬和每節(jié)點帶寬。另一方面則是強化了分布式訓練,重點關注每存儲節(jié)點能支持的GPU數量,從而評估用戶的AI存儲投資回報。

總的來說,在全球范圍內,存儲比過去更注重與AI產業(yè)的結合與協(xié)同,“存力”在AI場景中的價值突顯。而以浪潮信息為代表的本土廠商在此次評測中脫穎而出,也說明了中國AI行業(yè)的風向同樣如此——市場對存儲的重視和創(chuàng)新正在加速中國AI的發(fā)展進程,讓本來就注重應用落地的中國AI產業(yè)具備了更完備的核心要素。

AI狂飆,存算協(xié)同

今天,人工智能向千行百業(yè)滲透,大數據、大模型的相繼迸發(fā)不斷加速智能時代的到來。隨之而來的還有萬卡算力集群、萬億參數規(guī)模的大模型訓練。在這個過程中,市場對算力的關注持續(xù)高漲,各大AI廠商首要追求的莫過于高效的算力資源。

然而,在算力之外,以存儲解決方案為代表的存力也同樣深刻地影響著AI產業(yè)的發(fā)展。存力不僅要提供足夠的存儲容量,還需要保證高效的數據訪問能力。因此,如果存力不足,即便是擁有高性能的計算資源(算力),也無法高效地完成模型訓練任務,勢必會造成算力浪費。

存力與算力相輔相成,兩者之間的平衡至關重要,缺一不可,極大地影響著大模型訓練的效率以及AI產業(yè)發(fā)展的命脈。具體來看,現如今模型訓練的數據加載、模型訓練過程中的斷點續(xù)訓要盡可能地降低對計算時間的占用,那么存儲就不能“掉鏈子”,必然要提供高效、穩(wěn)定的解決方案予以支持。

浪潮信息存儲產品線副總經理劉希猛在與「智能相對論」交流中提到,“隨著算力規(guī)模達到千卡萬卡規(guī)模的時候,其實它對存儲的性能要求,訪問帶寬達到了TB級。在一些小模型的訓練當中,對時延的要求更高,存儲系統(tǒng)需要提供百萬級的IOPS的要求?!?/p>

算力的升級帶動著存力的進階,現階段AI想要跑起來,算力是關鍵,存力也同等重要。隨著AI產業(yè)發(fā)展所涌現出來的諸多場景問題越來越深入,對存儲提出的新要求也更加具體——不管是以MLCommons協(xié)會為代表的行業(yè)機構,還是以浪潮信息為代表的行業(yè)廠商,都在致力于探索更強大、高效并符合AI場景需求的存儲解決方案,以讓存力跑在前面,協(xié)同算力升級,支撐AI產業(yè)加速發(fā)展。

當AI上演“飛馳人生”

事實上,新的存儲解決方案之所以備受重視,其背后意味著整個行業(yè)對AI系統(tǒng)性認知越來越成熟。

今天的AI如同一輛高速行駛的汽車,上演著智能時代的“飛馳人生”,而這輛汽車能提速的關鍵則在于汽車內各個核心要素或子系統(tǒng)的共同驅動。具體來看,數據相當于“燃料”,燃燒充分進而驅動“動力系統(tǒng)”工作,讓汽車加速動起來。算力的利用程度則決定了“動力系統(tǒng)”工作的效率,進而影響汽車快慢——這是算力的價值所在。

而存力的價值在哪?在“燃料”與“動力系統(tǒng)”之間,兩者如何碰撞出火花,則取決于以油箱、輸油泵、燃油軌等核心零部件組成的“燃料供給系統(tǒng)”。在AI產業(yè)鏈中,存儲就相當于“燃料供給系統(tǒng)”,而存力的效率直接影響著“燃料”與“動力系統(tǒng)”(算力)之間的轉化,就如同汽車系統(tǒng)中油箱是否夠大、輸油泵是否給力、燃油軌是否通暢等問題,直接決定了汽車的燃料供給情況,影響著汽車的動力大小。

這是一個相當完整的系統(tǒng),在這個“系統(tǒng)”中,也就是AI場景下,存力所面臨的具體需求也將完全不同于傳統(tǒng)存儲,具體呈現在性能、效率以及韌性三大層面。

一、性能:大存力時代到來,協(xié)同大數據、大模型、大算力強勢驅動AI產業(yè)高速發(fā)展。

不管是單獨拎出算力與存力的關系來看,或是聚焦AI的系統(tǒng)性認知,都可以看到現階段存儲處于一個“牽一發(fā)而動全身”的位置,如同汽車里“燃油供給系統(tǒng)”和“動力系統(tǒng)”之間的關系,存力的大小決定著算力的效率,進而影響AI的發(fā)展。

因此,當AI產業(yè)高速發(fā)展,進入大數據、大模型、大算力涌現的時代,市場所需要的同樣是大存力。基于這個趨勢,業(yè)內正在不斷去提升帶寬、IOPS,降低時延等,通過這些優(yōu)化直接提高存力的效率。

其中,基于自研的分布式軟件棧優(yōu)勢,浪潮信息就在采用全新的數控分離架構,通過將I/O的控制面和數據面解耦合,實現了分布式一致性等復雜的控制面與數據流直通數據面分離處理架構,解決了分布式存儲數據流在節(jié)點間流轉的轉發(fā)問題,減少東西向(節(jié)點間)數據轉發(fā)量80%。在本次MLPerf測試中,浪潮信息存儲達到120 GB/s的單存儲節(jié)點的超高性能——如此優(yōu)異的單節(jié)點性能應用到實際AI場景中,將可以為企業(yè)客戶節(jié)省大量的存儲成本,從而以更高的性價比讓AI充分跑起來。

二、效率:存儲與AI產業(yè)鏈主動耦合,其價值定位愈發(fā)強調“以大局為重”。

對于存力“牽一發(fā)而動全身”的價值定位,浪潮信息分布式存儲產品部副總經理安祥文向「智能相對論」提供了更具體的解析視角。他以大模型的訓推落地舉例,以數據為第一視角講述了在不同的階段,存儲都將面臨著截然不同的工作任務。對比傳統(tǒng)的存儲,現階段的存儲需要實現以存促算、以存強算的目標,從被動到主動、從分離到耦合,最終綜合加快大模型訓練的效率。

不難理解,存儲正積極融入AI產業(yè)鏈中,其效率提升不只是關注自身,更在于如何全局性地、連續(xù)性地推動整個大模型訓練甚至是AI產業(yè)的加速發(fā)展。這種從單節(jié)點到整體性的進階,則需要存儲協(xié)同好AI場景中各種問題,注重提升整體效率,就像在汽車系統(tǒng)中,駐車后再啟動,“燃料供給系統(tǒng)”需要及時地提供“燃料”給“動力系統(tǒng)”以確保汽車能連續(xù)地行駛。

在這方面,以浪潮信息為代表的本土廠商考慮到實際落地的場景問題,正通過存儲支持文件、對象、大數據等非結構化協(xié)議融合互通,全局命名空間等方式,從而減少多份數據重復存儲,以及數據跨協(xié)議、跨區(qū)域、跨系統(tǒng)調度檢索的管理問題,提升存儲的全局效率。

三、韌性:存儲的地位不斷提升,行業(yè)創(chuàng)新高度聚焦存力的安全可靠體系建設。

過去,大眾對存儲的認知可能只是一個U盤,負責存儲資料的載體,但是當存儲融入AI產業(yè)鏈,其定位在變化,價值在提高,相應的所承擔的責任也在增強。存儲出了問題,將影響整個大模型訓推落地流程,就如同“燃料供給系統(tǒng)”故障了,整個車子都將無法行駛。因此,存儲的安全可靠也同步受到市場更大的關注,只有有韌性的存儲解決方案才能適應現階段以及未來高強度、高價值的AI產業(yè)發(fā)展。

那么,存儲的“韌性”應該如何提升?浪潮信息從傳統(tǒng)中醫(yī)理論入手設計保障存儲安全可靠的體系,正所謂“上醫(yī)治未病,中醫(yī)治欲病,下醫(yī)治已病”,一方面從網絡安全、設備安全、系統(tǒng)安全、管理安全、數據安全多維度構建了存儲安全體系,另一方面則是采用可靠性主動管理技術,實現存儲亞健康管理,對硬件、網絡、系統(tǒng)等進行亞健康檢測,確保系統(tǒng)故障可以快速恢復。此外,通過AIOps算法實現容量趨勢、性能趨勢、SSD壽命、HDD和SDD硬盤故障的精準預測,防患于未然,滿足客戶AI業(yè)務連續(xù)性需求。

結語

現如今,AI歷經多年發(fā)展,已經成長為一個大產業(yè)。在這條龐大的產業(yè)鏈之上,核心要素也在不斷趨于“大”發(fā)展,數據量激增迎來大數據時代,緊隨而來的還有大模型、大算力。越來越“大”的發(fā)展,讓各大核心要素之間愈發(fā)協(xié)同,存儲進入大存力時代,也與大數據、大模型、大算力之間的聯系更加緊密。

在這個節(jié)點上,行業(yè)權威機構開創(chuàng)基準評測,為市場提供參考標準。以浪潮信息為代表的本土廠商不斷以優(yōu)質的產品和解決方案強勢打榜,由此可見,不光是存儲的含金量在提升,本土AI的專業(yè)解決方案也在崛起。

只要以數據、算力為代表的核心要素相關解決方案持續(xù)強化,中國AI產業(yè)終將“狂飆”起來,上演本土化的“飛馳人生”。

*本文圖片均來源于網絡

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2024-10-28
MLPerf Storage揭榜,「存儲」掛帥,驅動AI上演“飛馳人生”
MLPerfStorage揭榜,「存儲」掛帥,驅動AI上演“飛馳人生”

長按掃碼 閱讀全文