挑戰(zhàn)存儲“不可能之三角”:用自研技術(shù)引領(lǐng)存儲性能突破

科技云報道原創(chuàng)。

存儲,是數(shù)字化時代的“糧倉”。它承載著企業(yè)的海量數(shù)據(jù),是企業(yè)數(shù)字化轉(zhuǎn)型的基礎(chǔ)。

然而,隨著非結(jié)構(gòu)化數(shù)據(jù)在生產(chǎn)業(yè)務(wù)中的廣泛應(yīng)用,各行各業(yè)正在經(jīng)歷數(shù)據(jù)量的爆炸式增長。雖然分布式存儲在大眾認(rèn)知內(nèi)具有高性價比和高擴(kuò)展性,卻未被賦予高性能的標(biāo)簽。

可以說,分布式存儲沒能完全解決存儲領(lǐng)域“大容量、高性能、高性價比不可能之三角”這一痛點。

分布式存儲的主要優(yōu)勢在于其出色的對象存儲能力,但在文件存儲的性能表現(xiàn)上,大小文件有所差異。

對于大文件的處理,由于技術(shù)壁壘較低,并且許多業(yè)界廠商已經(jīng)針對此進(jìn)行了深入研發(fā)和優(yōu)化,因此大文件的處理效果相對較好。

然而,分布式存儲對于小文件的處理卻受限于其開源的Ceph架構(gòu),需要處理大量小文件時,元數(shù)據(jù)管理、存儲空間和IO性能等能力跟不上,性能表現(xiàn)并不理想。

至于高性價比,這要求在低成本的同時提供更高的性能和更大的容量。以往業(yè)界認(rèn)為,高性能一定伴隨著高成本,但實際上這是對高性能和高成本之間關(guān)系的誤解。

只有找不到合理有效的優(yōu)化手段或解決方案時,才可能需要通過增加硬件投入來提高性能。

那么,如何解決分布式存儲的“不可能之三角”?

這是一個值得深思的問題,也是一個不小的挑戰(zhàn)?,F(xiàn)在,在存儲賽道上,有一個“老道的新手”用自研技術(shù),成功走到了大容量、高性能、高性價的交集里。

做分布式存儲易做好分布式存儲難

數(shù)字化浪潮洶涌向前,與之同行的是,存儲行業(yè)也要不斷地創(chuàng)新求變。

2018年前后,視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù)開始爆炸式增長,特別是在政府、醫(yī)療、媒體等領(lǐng)域存在大量的視頻數(shù)據(jù)存儲需求,對存儲海量數(shù)據(jù)、存儲系統(tǒng)的擴(kuò)展性提出了新的要求,以集中式架構(gòu)為主SAN、NAS傳統(tǒng)存儲瓶頸開始凸顯。

存儲市場需求的變化,也催化了新技術(shù)的爆發(fā)。這個時期,分布式存儲技術(shù)開始在各大廠商之間冒頭。

分布式存儲將數(shù)據(jù)分散存儲到多個存儲服務(wù)器上,并將這些分散的存儲資源構(gòu)成一個虛擬的存儲設(shè)備,從而實現(xiàn)了存儲容量的擴(kuò)展、性能的提升和成本的降低。

2020年,被視為分布式存儲爆發(fā)元年。根據(jù)IDC發(fā)布的《中國存儲市場季度追蹤報告》,2020年中國分布式存儲市場規(guī)模達(dá)到了37.2億美元,同比增長68.2%。

其中,企業(yè)級分布式存儲市場規(guī)模達(dá)到了33.8億美元,同比增長69.2%。

盡管分布式存儲已逐步進(jìn)入生產(chǎn)領(lǐng)域,但市場的變化,仍在催生新的需求。

最初,市場的焦點主要在于“存下來”,即如何存儲日益增長的數(shù)據(jù),例如政府的智慧城市項目和醫(yī)療影像的長期存儲。

對于這類“第二存儲、備份歸檔”等邊緣數(shù)據(jù)場景,分布式存儲的低成本、高擴(kuò)展性能夠很好地滿足。

隨著時間的推進(jìn),對存儲“高性能”的要求也日益提升,以滿足例如醫(yī)院的PACS閱片場景,實景三維場景,企業(yè)EDA場景等應(yīng)用的需求。

這些應(yīng)用不僅需要存儲海量數(shù)據(jù),還要求快速處理和分析這些數(shù)據(jù)。顯然,市場上普遍存在的“大容量但低性能”的分布式存儲已跟不上市場的需求。

近年來,隨著AI訓(xùn)練、芯片等高精尖產(chǎn)業(yè)的快速發(fā)展,對存儲系統(tǒng)的“綜合性能”提出了更高的要求。

這些應(yīng)用需要的不僅是海量的存儲容量,更要能夠處理混合負(fù)載,即高速的數(shù)據(jù)處理能力和對不同類型文件的支持。

事實上,在處理“混合負(fù)載”這一點上,目前分布式存儲產(chǎn)品普遍性能滿足不好。

混合負(fù)載的特點在于,既包括大文件(比如幾百兆甚至幾個G的視頻文件),也包括很多小文件(比如只有幾KB甚至更小的文本文件),當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模,小文件的處理性能就成為性能瓶頸。

不難發(fā)現(xiàn),分布式存儲在一定程度上能夠解決傳統(tǒng)存儲在性能、擴(kuò)展性方面的問題,但想要實現(xiàn)高性能的目標(biāo),依然非常困難??梢哉f,做分布式存儲容易,但做高性能的分布式存儲難。

分布式存儲想要解決“大容量、高性能、高性價比”的“不可能三角”難題,目前能夠完全作答的廠商并不多。

入局存儲賽道十年的深信服,正是其中的佼佼者。

堅持自研技術(shù)深信服挑戰(zhàn)存儲“不可能之三角”

2013年,深信服作為國內(nèi)最早鉆研虛擬化技術(shù)的云計算廠商之一,憑借虛擬化技術(shù)的優(yōu)勢,開始摸索著切入存儲賽道,那時深信服內(nèi)部稱之為“虛擬存儲”,顧名思義,扮演的角色是深信服桌面云和超融合存儲底座支撐。

彼時,經(jīng)過超融合、桌面云的用戶“檢驗”之后的“虛擬存儲”,也日漸成熟。

隨著各行各業(yè)數(shù)據(jù)不斷增長,深信服看到了用戶在小文件場景面臨的困擾。2017年開始,深信服決定獨立發(fā)展存儲,加大投入,打造用戶真正需要的存儲底座。

在與傳統(tǒng)存儲廠商的競爭中,深信服搶占了先機(jī):一方面,深信服精準(zhǔn)把控了市場需求變化;另一方面,通過自研核心高性能架構(gòu),實現(xiàn)了彎道超車。

帶著對用戶需求的深刻洞察,從2020年開始,深信服EDS存儲將目光鎖定在了主存儲領(lǐng)域,專為“高性能大容量文件存儲”而生——能支持混合IO負(fù)載,兼具大小文件能力,瞄向高精尖場景。

2023年,深信服發(fā)布了EDS分布式存儲501高性能版本,這在存儲業(yè)界也意味著分布式存儲能堪當(dāng)大任,承載核心生產(chǎn)業(yè)務(wù)。

在深信服看來,存儲“不可能之三角”的破題秘籍在于,充分發(fā)揮硬件存儲介質(zhì)性能和提升軟件數(shù)據(jù)管理及處理能力,從而取得“高性能+大容量+高性價比”的平衡。

高性能和大容量一步到位

存儲設(shè)備的性能通常由其讀寫速度和承載數(shù)據(jù)量的能力來衡量,特別是在處理大量小文件時,讀寫速度和系統(tǒng)的穩(wěn)定性尤為重要。

讀寫性能提升上,深信服EDS存儲設(shè)計的讀寫模式充分適應(yīng)了SSD與HDD混合閃存介質(zhì)的特性,以此充分激發(fā)硬件性能。同時,通過增加NVMe SSD即可實現(xiàn)容量的橫向擴(kuò)展、性能的線性提升。

同樣大小的內(nèi)存空間,深信服EDS存儲基于多活的元數(shù)據(jù)能力,可以充分發(fā)揮各節(jié)點的磁盤性能,讓元數(shù)據(jù)訪問效率提升 10 倍以上,可緩存的元數(shù)據(jù)規(guī)模是Ceph系產(chǎn)品的7倍,在 AI 訓(xùn)練等場景下可以保持 90% 以上的元數(shù)據(jù)命中率。

不僅如此,深信服EDS存儲在IO整合、數(shù)據(jù)緩存與協(xié)議增強(qiáng)等核心技術(shù)方向上也構(gòu)建了自己的核心能力,來提升海量小文件和大文件高吞吐場景的性能。

通過小文件的聚合和動態(tài)IO整合,深信服EDS存儲實現(xiàn)了性能層空間的最小化,并且在持續(xù)寫入文件的過程中,保障性能層不會被擊穿,始終保有充足的空間進(jìn)行數(shù)值的排序與整合,通過這樣的動態(tài)整合來解決容量使用超過80%后導(dǎo)致的垃圾回收擠占而性能下降的問題。

對于延遲敏感型業(yè)務(wù),深信服EDS存儲采用自適應(yīng)三級緩存技術(shù),縮短數(shù)據(jù)路徑將數(shù)據(jù)時延降至us級。

在協(xié)議增強(qiáng)上,相比于標(biāo)準(zhǔn)文件共享協(xié)議協(xié)議,深信服EDS存儲提升了2-3倍,進(jìn)一步降低協(xié)議對性能的額外開銷,縮短時延和提升性能。

深信服EDS存儲性能和容量線性同步擴(kuò)展

基于分布式存儲架構(gòu)的天然優(yōu)勢,當(dāng)用戶需要更大的存儲空間或者處理能力時,只需要添加更多的節(jié)點即可,無需改變已有的硬件或軟件結(jié)構(gòu),也無須面臨替換存儲陣列硬件的昂貴投入,獲得性能和容量的真正“自由”。

打破常規(guī):以更低成本驅(qū)動高性能和大容量

傳統(tǒng)陣列存儲如果要同時滿足大容量、高性能的需求,往往需要投入很高成本,高昂的磁盤陣列擴(kuò)容擴(kuò)展的費用也讓很多企業(yè)不堪重負(fù)。

而在深信服看來,同時獲得高性能和大容量可以用更經(jīng)濟(jì)的方式,也不需要過度依賴昂貴、高端的硬件配置。

一方面,深信服EDS存儲實現(xiàn)了冷熱數(shù)據(jù)自動分層,熱數(shù)據(jù)存儲在NVMe 或SATA固態(tài)盤構(gòu)建的高性能層,冷數(shù)據(jù)存儲在機(jī)械盤構(gòu)建的大容量層,這樣能幫助用戶節(jié)省存儲的硬件成本。

另一方面,基于深舟數(shù)據(jù)管理平臺、EDSData Explorer等軟件,實現(xiàn)數(shù)據(jù)的高效壓縮和管理,64GB內(nèi)存可以承載億級以上規(guī)模小文件的高速讀寫,幫助用戶合理規(guī)劃存儲的投入成本。

深信服EDS存儲自研架構(gòu)

通過硬件+軟件的組合式創(chuàng)新,深信服EDS分布式存儲在高性能、大容量、高性價比等方面都取得了顯著的提升,能夠滿足容量大且大小文件混合負(fù)載的應(yīng)用場景,很好地解決了存儲“不可能之三角”。

對存儲而言,性能優(yōu)化可謂是一場沒有終點的馬拉松,持續(xù)在通用硬件上激發(fā)出更高、更穩(wěn)定的存儲性能,通過軟件實現(xiàn)更快的數(shù)據(jù)接入、數(shù)據(jù)管理,用戶便可以用更低的成本投入獲得可支撐核心業(yè)務(wù)運行的存儲產(chǎn)品。

自研分布式存儲系統(tǒng)的深信服,技術(shù)棧更加先進(jìn),加上軟硬件結(jié)合與適配,在性能、可靠性等方面出類拔萃,勝任高精尖領(lǐng)域的各種存儲需求。

一款產(chǎn)品好不好用客戶反饋是真正的試金石

一款好的存儲產(chǎn)品,不僅是實驗室里的高性能,更是用戶生產(chǎn)環(huán)境的實際需求的高性能。

上海某???strong>醫(yī)院的影像數(shù)據(jù)每年以15%的速度增長,深信服EDS存儲不僅滿足其擴(kuò)容需求,而且還能輕松應(yīng)對就診高峰期的高并發(fā)閱片,閱片端每秒可加載1000張CT影像。

這意味著,醫(yī)生可以在更短的時間內(nèi)完成閱片,提高工作效率,為患者提供更優(yōu)質(zhì)的醫(yī)療服務(wù)。

除了實實在在為醫(yī)院、醫(yī)療助力之外,深信服EDS存儲也應(yīng)用在AI、芯片、測繪、媒體等多場景。

在芯片設(shè)計場景?,深信服EDS存儲可以支撐更大規(guī)模的EDA仿真任務(wù),激活100%活躍算力。這意味著,芯片設(shè)計企業(yè)可以更快地完成EDA仿真,縮短產(chǎn)品研發(fā)周期。

在測繪場景?,EDS 501高性能版本每天可以處理70000張航片。

在航片導(dǎo)入場景?,相比于其他廠商大文件吞吐能力提升2倍多;三維建模場景的小文件效率可接近于本地NVMe SSD,CASS3D在線打開海量小文件組成的三維成果數(shù)據(jù)耗時相比于某陣列NAS縮短8倍多。

結(jié)語

在高精尖領(lǐng)域的成功,深信服證明了EDS具有強(qiáng)大的市場適應(yīng)性,這也為其在其他行業(yè)的發(fā)展奠定了良好的基礎(chǔ)。深信服之所以在這些場景中表現(xiàn)出強(qiáng)勁的性能,這得益于EDS的“業(yè)務(wù)優(yōu)先”理念。

深信服EDS存儲從不“唯數(shù)據(jù)論”,不盲目追求性能數(shù)據(jù)上的提升,而是落到真實的業(yè)務(wù)場景,針對業(yè)務(wù)特征進(jìn)行性能優(yōu)化,為實際業(yè)務(wù)運行帶去更好的體驗。

同時,深信服EDS也不鼓吹“大而全”,而是聚焦在高性能文件存儲這一領(lǐng)域精益求精,力爭領(lǐng)導(dǎo)者。

深信服作為存儲領(lǐng)域“老道的新手”,在高性能存儲之路上,追求的不僅是將自身在云技術(shù)棧十多年積累的存儲技術(shù)用于EDS存儲,更重要的是深入到每個用戶的實際應(yīng)用場景中,以生產(chǎn)業(yè)務(wù)的高性能需求為導(dǎo)向,真正實現(xiàn)用戶需求和技術(shù)優(yōu)勢的最佳結(jié)合。

【關(guān)于科技云報道】

專注于原創(chuàng)的企業(yè)級內(nèi)容行家——科技云報道。成立于2015年,是前沿企業(yè)級IT領(lǐng)域Top10媒體。獲工信部權(quán)威認(rèn)可,可信云、全球云計算大會官方指定傳播媒體之一。深入原創(chuàng)報道云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-01-03
挑戰(zhàn)存儲“不可能之三角”:用自研技術(shù)引領(lǐng)存儲性能突破
科技云報道原創(chuàng)。存儲,是數(shù)字化時代的“糧倉”。它承載著企業(yè)的海量數(shù)據(jù),是企業(yè)數(shù)字化轉(zhuǎn)型的基礎(chǔ)。然而,隨著非結(jié)構(gòu)化數(shù)據(jù)在生產(chǎn)業(yè)務(wù)中的...

長按掃碼 閱讀全文