應“云”而生,“智能湖倉”如何成為構(gòu)建數(shù)據(jù)能力的最優(yōu)解?

科技云報道原創(chuàng)。

隨著新一輪科技革命和產(chǎn)業(yè)革命深入交織,數(shù)字經(jīng)濟正在成為重組全球要素資源、重塑全球經(jīng)濟結(jié)構(gòu)、改變?nèi)蚋偁幐窬值年P鍵力量。

在這一過程中,作為數(shù)字化底座的云,已經(jīng)不僅僅局限于基礎設施角色,更是企業(yè)持續(xù)創(chuàng)新和精益運營的關鍵支撐。

能否從云上獲取更多價值,將成為企業(yè)能否在數(shù)字時代擁有一席之地、持續(xù)領先領跑的關鍵。

而云原生對基礎設施的革新,帶來了一系列“蝴蝶效應”。

隨著云原生技術已在互聯(lián)網(wǎng)、金融等行業(yè)“落地開花”,云原生基礎設施不僅可以豐富數(shù)字化應用場景的多元化實踐,也將為企業(yè)發(fā)展提供可持續(xù)的內(nèi)生動力,“智能湖倉”便是其中最為重要的技術架構(gòu)之一。

作為“智能湖倉”架構(gòu)的提出者,亞馬遜云科技在云原生數(shù)據(jù)基礎設施方面持續(xù)迭代創(chuàng)新。

3月14日,亞馬遜云原生數(shù)據(jù)湖S3迎來17周歲,在Pi Day 2023上,亞馬遜云科技對Amazon S3發(fā)展歷程進行全面回顧,不斷激發(fā)數(shù)據(jù)的更大價值。

?從“數(shù)據(jù)倉庫”到“數(shù)據(jù)湖”

IDC統(tǒng)計顯示,預計到2025年,全球數(shù)據(jù)量將比2016年的16.1ZB增加十倍,達到163ZB。

數(shù)據(jù)的海量與多元化決定了從數(shù)據(jù)中獲取有用的價值變得越來越困難,如果無法從數(shù)據(jù)中獲得益處,那么數(shù)據(jù)價值就無從談起。

目前,數(shù)據(jù)的價值呈現(xiàn)兩極化特征,一是及時發(fā)現(xiàn),實時分析快速促進業(yè)務發(fā)展;二是長期存放,數(shù)據(jù)累積起來,探索數(shù)據(jù)后隱藏的規(guī)律,統(tǒng)一分析其價值,為業(yè)務發(fā)展提供參考。

新的數(shù)據(jù)價值將給企業(yè)帶來更多智能創(chuàng)新應用,比如增長黑客、推薦系統(tǒng),用戶行為分析,AIoT帶來的更多模型,這也意味著IT基礎設施的變革。

傳統(tǒng)數(shù)據(jù)處理方式,就像“涓涓細流”,里面有ERP、CRM等各種業(yè)務系統(tǒng),用戶可以設計“一個河道”,數(shù)據(jù)庫在最底層。

數(shù)據(jù)經(jīng)過整理后形成中間層的數(shù)據(jù)倉庫,然后通過商務智能工具(BI)來及進行展示。

但在數(shù)字化時代,各種各樣的視頻、移動終端信息如“滔滔江水”,形成大規(guī)模的海量數(shù)據(jù),用戶來不及整理和使用。

這時,一個新的設想打開了人們的視野,假設有那么一片洼地,把所有數(shù)據(jù)先蓄積到里面,然后通過有效的工具進行查詢和處理,這便是數(shù)據(jù)湖。

國際研究機構(gòu)MarketsandMarkets最新研究報告顯示,到2024年,全球數(shù)據(jù)湖市場將突破200億美元,增至201億美元,復合年增長率將高達20.6%。

可以說,隨著數(shù)據(jù)治理與應用需求激增,數(shù)據(jù)湖成為數(shù)據(jù)管理的重要方式已成為不爭的事實。

數(shù)據(jù)湖的出現(xiàn),很好的解決了數(shù)據(jù)倉庫建設存在的一系列問題,將數(shù)據(jù)管理的流程簡化為2個階段,數(shù)據(jù)入湖和數(shù)據(jù)分析。

數(shù)據(jù)湖一般以免運維、高可靠的對象存儲為底座,支持各種數(shù)據(jù)類型的存儲。

對于用戶來說,借助最新的數(shù)據(jù)湖解決方案,不僅能解決過去的數(shù)據(jù)孤島問題,同時還能兼容傳統(tǒng)的數(shù)據(jù)倉庫和數(shù)據(jù)分析方法。

最重要的是,更適合現(xiàn)代應用部署,比如和機器學習結(jié)合,進行預測性的分析。

? “智能湖倉”成技術新趨勢

隨著數(shù)據(jù)湖概念的興起,業(yè)界對于數(shù)據(jù)倉庫和數(shù)據(jù)湖的對比甚至爭論就一直不斷。

有人說數(shù)據(jù)湖是下一代大數(shù)據(jù)平臺,各大云廠商也紛紛提出自己的數(shù)據(jù)湖解決方案,一些云數(shù)倉產(chǎn)品也增加了和數(shù)據(jù)湖聯(lián)動的特性。

不過在我們看來,數(shù)據(jù)湖與數(shù)據(jù)倉庫并不是替代關系,而是互為補充、相輔相成,在此基礎上的“智能湖倉”將能充分實現(xiàn)兩者間的良性互動,成為未來重要的數(shù)據(jù)技術趨勢之一。

“智能湖倉”通過數(shù)據(jù)倉庫治理能力的引入,既可以很好的解決上面提到的數(shù)據(jù)湖建設的問題,也為更好的挖掘湖中數(shù)據(jù)價值提供了基礎,將高效建倉、靈活建湖的兩大優(yōu)勢融合在了一起。

不同于傳統(tǒng)數(shù)據(jù)倉庫的管理方式,“智能湖倉”極大地提高了數(shù)據(jù)開發(fā)的效率,同時降低了數(shù)據(jù)管理的難度。

過去處理數(shù)據(jù),需要資深的數(shù)據(jù)架構(gòu)師定義數(shù)倉的規(guī)劃,從數(shù)倉的分層、指標的定義到數(shù)據(jù)集市模型設計,然后交給專業(yè)的數(shù)據(jù)工程師進行業(yè)務開發(fā),再由業(yè)務人員進行驗證,有一套規(guī)范但卻復雜的過程。而“智能湖倉”的出現(xiàn),讓企業(yè)能夠快速的基于業(yè)務進行開發(fā),又能夠靈活的調(diào)整和規(guī)劃自己的數(shù)據(jù)管理方式。

另外,“智能湖倉”也讓大數(shù)據(jù)行業(yè)內(nèi)各個角色之間的交互變得更加自如?;凇爸悄芎}”的數(shù)據(jù)管理理念,各類數(shù)據(jù)應用角色能夠更好的相互協(xié)作,共同開發(fā)。

如數(shù)據(jù)科學家可以方便的集成自己的數(shù)據(jù)并以納入標準數(shù)倉流程進行管理、業(yè)務分析師也能夠自己開發(fā)數(shù)據(jù)需求等。

“智能湖倉”打破孤島勾勒數(shù)據(jù)價值未來

談到“智能湖倉”,不得不提到其最為重要的支撐——Amazon S3 ( Simple Storage Service )。

17年前,亞馬遜云科技推出了Amazon S3服務,首次定義了對象存儲,S3由此成為對象存儲事實上的標準,具有劃時代意義。2015年,Amazon S3支持數(shù)萬億對象存儲,平均在線峰值每秒可處理150萬請求,設計為99.999999999%(“11個9”)的持久性。

2022年,亞馬遜云科技迎來又一座里程碑。Amazon S3存儲的對象數(shù)量已經(jīng)超過200萬億,每秒可處理數(shù)千萬個請求。

亞馬遜云科技發(fā)布Amazon Redshift支持auto-copy from Amazon S3,從物理存儲層面打通了數(shù)據(jù)湖與數(shù)據(jù)倉庫。

目前,全球數(shù)萬用戶都在使用Amazon Redshift分析數(shù)據(jù)庫進行數(shù)據(jù)分析,這些用戶來自游戲、金融、醫(yī)療、消費、互聯(lián)網(wǎng)等。

在十多年發(fā)展歷程中,Redshift一直在持續(xù)迭代,很多功能和特性都源于企業(yè)的真實業(yè)務需求。

具體而言,客戶數(shù)倉場景主要包括四大塊:

第一,常規(guī)業(yè)務運營與BI分析;第二,實時數(shù)倉分析;第三,查詢、報表與數(shù)據(jù)分析;第四,機器學習與分析預測。

可以說,企業(yè)要想快速構(gòu)建數(shù)據(jù)流水線,Amazon Redshift是底層基礎設置的重要支撐。

而憑借Amazon Redshift與其他數(shù)據(jù)分析應用的無縫集成,用戶可以獲得更完美的數(shù)據(jù)分析體驗。

比如:可以實現(xiàn)高性能格式存儲數(shù)據(jù),以更經(jīng)濟有效的方式將存儲擴展到千兆字節(jié),可實現(xiàn)存儲和計算的分離,并且可以實現(xiàn)分析和機器學習引擎的選擇等等。

早在2017年,Redshift就已經(jīng)實現(xiàn)湖和倉的融合,Redshift Spectrum可以直接查詢在S3上開放格式的數(shù)據(jù),當然也可以將數(shù)據(jù)寫入到湖中,實現(xiàn)了數(shù)據(jù)倉庫和數(shù)據(jù)湖的數(shù)據(jù)無縫流轉(zhuǎn)。

2022年,是Redshift推出正式滿10周年。在這特別的一年,亞馬遜云科技在年度大會上卻一反常態(tài),沒有發(fā)布重大升級更新。

取而代之的是,在會中推出許多新功能,都是和Redshift相關,從更緊密資料集成、流媒體資料分析到強化安全訪問,力求要把Redshift打造成企業(yè)資料集散地,來符合各種現(xiàn)代化應用的使用,以及能匯集整理各種類型資料,提供AI分析和后續(xù)應用,更要讓這個能夠通吃各種資料類型的新一代數(shù)據(jù)倉庫架構(gòu),成為加速企業(yè)資料現(xiàn)代化的關鍵產(chǎn)品。

總體而言,作為亞馬遜云科技的基石技術,Amazon S3不斷為其技術創(chuàng)新提供源源不斷的養(yǎng)分。而“智能湖倉”以Amazon S3為基礎構(gòu)建數(shù)據(jù)湖,作為中央存儲庫,圍繞數(shù)據(jù)湖集成專門的“數(shù)據(jù)服務環(huán)”,包括數(shù)據(jù)倉庫、機器學習、大數(shù)據(jù)處理、日志分析等數(shù)據(jù)服務,然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Spectrum等工具,實現(xiàn)數(shù)據(jù)湖的構(gòu)建、數(shù)據(jù)的移動和管理等。

“智能湖倉”架構(gòu)可以被視為一個“樞紐”,將亞馬遜云科技的數(shù)據(jù)服務無縫集成,打通數(shù)據(jù)湖和數(shù)據(jù)倉庫之間數(shù)據(jù)移動和訪問,并且進一步實現(xiàn)數(shù)據(jù)在數(shù)據(jù)湖、數(shù)據(jù)倉庫,以及在數(shù)據(jù)查詢、數(shù)據(jù)分析、機器學習等各類專門構(gòu)建的服務之間按需移動,從而形成統(tǒng)一且連續(xù)的整體,滿足客戶各種實際業(yè)務場景下的不同需求。

任何階段的企業(yè)都可以從這種敏捷的架構(gòu)中快速獲益,輕松打破數(shù)據(jù)及技能孤島,并以迭代及增量的方式獲得數(shù)據(jù)分析的敏捷性,縮短企業(yè)提取數(shù)據(jù)價值的創(chuàng)新周期。

這一架構(gòu)充分利用了云服務帶來的安全可靠、極致性能、無限擴展等優(yōu)勢,能夠幫助企業(yè)消除數(shù)據(jù)孤島,打造統(tǒng)一的數(shù)據(jù)基礎底座,打通從數(shù)據(jù)獲取到數(shù)據(jù)應用的完整流程,并讓企業(yè)在云中實現(xiàn)數(shù)據(jù)與智能的深度融合,從而充分發(fā)揮數(shù)據(jù)價值。

如今,亞馬遜云科技已助力150萬客戶成為數(shù)據(jù)驅(qū)動型企業(yè)。

以供應鏈的數(shù)字化升級為例,順豐利用亞馬遜云科技可大規(guī)模擴展的對象存儲服務Amazon S3構(gòu)建數(shù)據(jù)湖,將園區(qū)內(nèi)大量的前端感知設備,包括攝像頭、物聯(lián)網(wǎng)IoT設備、地磁、多模達等收集的信息匯總到數(shù)據(jù)湖中。

依托Amazon S3云對象存儲近乎無限的存儲能力,為數(shù)據(jù)驅(qū)動運營提供堅實的數(shù)據(jù)基礎。

通過使用亞馬遜云科技計算、存儲、數(shù)據(jù)分析、容器、機器學習和安全等服務,順豐供應鏈改進了園區(qū)運營流程,提升了運營效率,園區(qū)車輛日吞吐量提升40%-60%,員工作業(yè)效率提升30%,調(diào)度員和安檢員工作量減少50%。

亞馬遜云科技的另一個客戶納斯達克也通過Amazon S3為數(shù)據(jù)管理賦能。

由于自動化交易平臺涌入市場,交易速度和交易量持續(xù)增長,2014年,納斯達克為了擴大規(guī)模、提高性能并降低運營成本,從舊式本地部署數(shù)據(jù)倉庫遷移到由Amazon Redshift集群賦能的數(shù)據(jù)倉庫。隨著時間推移,越來越多的交易導致數(shù)據(jù)大量增加,同時,納斯達克開始規(guī)劃開發(fā)新架構(gòu)以持續(xù)實現(xiàn)生態(tài)系統(tǒng)期望的性能標準和卓越運營。

2018年,納斯達克選擇在Amazon S3上構(gòu)建新的數(shù)據(jù)湖,這使該公司能夠?qū)⒂嬎愫痛鎯Ψ珠_,并獨立擴展每項功能。納斯達克通過集成亞馬遜云科技IAM策略、Amazon S3,還可在多個亞馬遜云科技賬戶間提供全面的訪問控制功能。此外,納斯達克使用Amazon S3來存儲關鍵的金融數(shù)據(jù),并將其移至Amazon S3 Glacier,從而能夠以較低的成本進行歸檔。

2019年1月,納斯達克參加了亞馬遜云科技的Data Lab,在為期四天的實驗中,納斯達克使用Amazon Redshift作為計算層,重新設計了其提供分析的方式。因此,納斯達克開始使用Amazon Redshift Spectrum,這是一項賦能智能湖倉架構(gòu)的功能,可以直接查詢數(shù)據(jù)倉庫和Amazon S3數(shù)據(jù)湖中的數(shù)據(jù)。

如此一來,洞察生成時間縮至最短,賦能斯達克經(jīng)濟研究團隊可以進行數(shù)據(jù)分析,并對數(shù)據(jù)運行復雜的查詢。起初是以性能為重點的解決方案,現(xiàn)在變成了團隊間共享的多用途數(shù)據(jù)湖。

借助基于Amazon S3和Amazon Redshift的新型智能湖倉架構(gòu),納斯達克每天能夠處理的記錄數(shù)量輕松地從300億條躍升至700億條,并且較之前提前5小時達到90%的數(shù)據(jù)加載完成率。此外,通過優(yōu)化其數(shù)據(jù)倉庫,納斯達克運行Amazon Redshift查詢的速度加快了32%。

鑒于良好的系統(tǒng)體驗,納斯達克于2022年已成功將其六大美國期權(quán)交易市場之一納斯達克MRX的核心交易系統(tǒng)遷移至亞馬遜云科技。此次成功遷移標志著納斯達克為全球資本市場構(gòu)建下一代技術基礎設施之旅中一個重要的里程碑。

無論是在數(shù)據(jù)基礎架構(gòu)、統(tǒng)一分析還是業(yè)務創(chuàng)新上,從連接數(shù)據(jù)湖和數(shù)據(jù)倉庫到跨數(shù)據(jù)庫、跨域共享,如今亞馬遜云科技“智能湖倉”架構(gòu)在企業(yè)中的實踐,已經(jīng)為企業(yè)構(gòu)建現(xiàn)代化數(shù)據(jù)平臺提供了一條可供遵循的路徑,其將協(xié)同Amazon S3與Amazon Redshift等更多技術和產(chǎn)品,進一步推進底層數(shù)據(jù)架構(gòu)的現(xiàn)代化演進,為企業(yè)乃至全行業(yè)帶來更大的價值。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2023-03-18
應“云”而生,“智能湖倉”如何成為構(gòu)建數(shù)據(jù)能力的最優(yōu)解?
應“云”而生,“智能湖倉”如何成為構(gòu)建數(shù)據(jù)能力的最優(yōu)解?

長按掃碼 閱讀全文