業(yè)內(nèi)首次融合數(shù)據(jù)倉庫與數(shù)據(jù)湖 阿里云推出下一代大數(shù)據(jù)平臺(tái)“湖倉一體”

?9月18日,2020云棲大會(huì)上,阿里云正式推出大數(shù)據(jù)平臺(tái)的下一代架構(gòu)——“湖倉一體”,打通數(shù)據(jù)倉庫和數(shù)據(jù)湖兩套體系,讓數(shù)據(jù)和計(jì)算在湖與倉之間自由流動(dòng),從而構(gòu)建一個(gè)完整的有機(jī)的大數(shù)據(jù)技術(shù)生態(tài)體系。為企業(yè)提供兼具數(shù)據(jù)湖的靈活性和數(shù)據(jù)倉庫的成長性的新一代大數(shù)據(jù)平臺(tái),降低企業(yè)構(gòu)建大數(shù)據(jù)平臺(tái)的整體成本。

業(yè)內(nèi)首次融合數(shù)據(jù)倉庫與數(shù)據(jù)湖 阿里云推出下一代大數(shù)據(jù)平臺(tái)“湖倉一體”

大數(shù)據(jù)技術(shù)從本世紀(jì)初發(fā)展至今演進(jìn)出了數(shù)據(jù)倉庫和數(shù)據(jù)湖兩種趨勢(shì),前者通常指云廠商提供的基于大數(shù)據(jù)技術(shù)的一體化服務(wù),后者通常是由一系列云產(chǎn)品或開源組件共同構(gòu)成的大數(shù)據(jù)解決方案。

當(dāng)企業(yè)處在初創(chuàng)階段,靈活性就非常重要,數(shù)據(jù)湖的架構(gòu)更適用。當(dāng)企業(yè)逐漸成熟,成長性成為最關(guān)鍵因素,數(shù)據(jù)倉庫的架構(gòu)就再適合不過了。那么,數(shù)據(jù)倉庫和數(shù)據(jù)湖是否只能是一道單選題?能否有一種方案同時(shí)兼顧數(shù)據(jù)湖的靈活性和云數(shù)據(jù)倉庫的成長性?

阿里巴巴集團(tuán)副總裁、阿里云計(jì)算平臺(tái)負(fù)責(zé)人賈揚(yáng)清表示,MaxCompute湖倉一體方案打破了數(shù)據(jù)湖與數(shù)據(jù)倉庫割裂的體系,在架構(gòu)上將數(shù)據(jù)湖的靈活性、生態(tài)豐富與數(shù)據(jù)倉庫的企業(yè)級(jí)能力進(jìn)行融合,從而構(gòu)建數(shù)據(jù)湖和數(shù)據(jù)倉庫融合的湖倉一體的全新計(jì)算平臺(tái)。MaxCompute湖倉一體方案不僅可廣泛用于支持超大規(guī)模的機(jī)器學(xué)習(xí)和深度學(xué)習(xí),還能幫助企業(yè)高效提升自身大數(shù)據(jù)能力,實(shí)現(xiàn)敏捷運(yùn)營,降本增效。

據(jù)悉,MaxCompute在原有的數(shù)據(jù)倉庫架構(gòu)上,融合了存儲(chǔ)計(jì)算一體化數(shù)據(jù)倉庫和云上存儲(chǔ)計(jì)算分離的數(shù)據(jù)湖,最終實(shí)現(xiàn)了湖倉一體化的整體架構(gòu)。在該架構(gòu)中,盡管底層多套存儲(chǔ)系統(tǒng)并存,但通過統(tǒng)一的存儲(chǔ)訪問層和統(tǒng)一的元數(shù)據(jù)管理,向上層引擎提供一體的封裝接口,用戶可以Join數(shù)據(jù)倉庫和數(shù)據(jù)湖中的兩張表,同時(shí)整體架構(gòu)還具備統(tǒng)一的數(shù)據(jù)安全、管理和治理等中臺(tái)能力。

在技術(shù)融合過程中,MaxCompute不僅實(shí)現(xiàn)了快速接入、統(tǒng)一數(shù)據(jù)/元數(shù)據(jù)管理、統(tǒng)一開發(fā)體驗(yàn)、自動(dòng)數(shù)倉四個(gè)關(guān)鍵技術(shù)點(diǎn),更持續(xù)提升了核心性能,在2020 TPCx-BigBench中,MaxCompute基于英特爾至強(qiáng)可擴(kuò)展處理器在100TB規(guī)模保持性能不變的情況下,成本較去年下降了40%;30TB規(guī)模下,性能提升50%以上,成本下降了30%以上。

微博是“湖倉一體”的嘗鮮者。此前微博擁有Hadoop數(shù)據(jù)湖和阿里云大數(shù)據(jù)及AI兩套異構(gòu)的大數(shù)據(jù)平臺(tái),且兩套平臺(tái)在集群層面完全割裂,數(shù)據(jù)和計(jì)算無法自由流動(dòng)。為了解決這些難題,微博基于阿里云構(gòu)建了湖倉一體化的AI計(jì)算中臺(tái),擺脫了繁重的數(shù)據(jù)搬遷,使得微博的數(shù)據(jù)工程師和算法工程師輕松無縫的借助阿里巴巴成熟的超大規(guī)模算力和算法賦能業(yè)務(wù)提效。同時(shí),將MaxCompute云數(shù)據(jù)倉庫(結(jié)構(gòu)化數(shù)據(jù))與數(shù)據(jù)湖(非結(jié)構(gòu)化數(shù)據(jù))構(gòu)成閉環(huán),極大提升了AI類作業(yè)效率,產(chǎn)生巨大的業(yè)務(wù)價(jià)值。

阿里云自研云數(shù)據(jù)倉庫MaxCompute歷經(jīng)近10年技術(shù)沉淀,不僅穩(wěn)定支撐阿里巴巴集團(tuán)的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算業(yè)務(wù),更是云上客戶大數(shù)據(jù)平臺(tái)的重要組成部分。此次湖倉一體發(fā)布,為企業(yè)提供了一種更靈活更高效更經(jīng)濟(jì)的數(shù)據(jù)平臺(tái)解決方案,既適用于全新構(gòu)建大數(shù)據(jù)平臺(tái)的企業(yè),也適合已有大數(shù)據(jù)平臺(tái)的企業(yè)進(jìn)行架構(gòu)升級(jí),切實(shí)以技術(shù)加速了企業(yè)的數(shù)字化重構(gòu)。

據(jù)了解,本次云棲大會(huì)上,賈揚(yáng)清還首次發(fā)布阿里云云原生數(shù)據(jù)湖體系,基于對(duì)象存儲(chǔ)OSS、數(shù)據(jù)湖構(gòu)建Data Lake Formation和云原生開源大數(shù)據(jù)產(chǎn)品E-MapReduce的強(qiáng)強(qiáng)組合,提供存儲(chǔ)與計(jì)算分離架構(gòu)下,涵蓋湖存儲(chǔ)、湖加速、湖管理和湖計(jì)算的企業(yè)級(jí)數(shù)據(jù)湖解決方案。以及宣布MaxCompute和Hologres產(chǎn)品融合升級(jí),提供離線、實(shí)時(shí)、分析、服務(wù)一體的數(shù)據(jù)倉庫。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )