【智慧城市網(wǎng) 市場分析】 數(shù)據(jù)存儲(chǔ)與計(jì)算提供海量數(shù)據(jù)的高壓縮比存儲(chǔ)和高效計(jì)算等基礎(chǔ)能力,以數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖等為其技術(shù)表現(xiàn)形態(tài)。其發(fā)展歷程長、產(chǎn)業(yè)成熟度相對較高,目前在數(shù)據(jù)要素等新需求牽引下,正呈現(xiàn)出穩(wěn)中有進(jìn)的發(fā)展態(tài)勢。
(一)數(shù)據(jù)存儲(chǔ)與計(jì)算發(fā)展歷久彌新
1960年信息時(shí)代開啟后,用于存儲(chǔ)、計(jì)算少量結(jié)構(gòu)化數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)倉庫誕生,Oracle、DB2、Teradata等商業(yè)化產(chǎn)品逐漸成熟。2000年互聯(lián)網(wǎng)興起后,結(jié)構(gòu)化數(shù)據(jù)的規(guī)模迅速膨脹、非結(jié)構(gòu)化數(shù)據(jù)開始涌現(xiàn),傳統(tǒng)關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)倉庫能力出現(xiàn)瓶頸,以Apache Hadoop為代表的分布式存儲(chǔ)計(jì)算框架成為新的技術(shù)潮流,Cloudera、Hontonworks等數(shù)家商業(yè)化公司紛紛成立,大數(shù)據(jù)時(shí)代正式來臨。2010年移動(dòng)互聯(lián)網(wǎng)逐漸普及后,實(shí)時(shí)推薦、即時(shí)決策需求對海量數(shù)據(jù)處理的實(shí)時(shí)性提出更高要求,同時(shí)視頻、音頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)占比大幅提升, Storm、Flink等流處理框架受到關(guān)注,數(shù)據(jù)湖技術(shù)也開始迅速產(chǎn)品化。圖2對數(shù)據(jù)存儲(chǔ)與計(jì)算領(lǐng)域的技術(shù)發(fā)展歷程進(jìn)行了簡要總結(jié)。
技術(shù)方面,經(jīng)過60余年發(fā)展,數(shù)據(jù)存儲(chǔ)與計(jì)算領(lǐng)域總體技術(shù)框架趨于成熟,進(jìn)入深度優(yōu)化階段。數(shù)據(jù)存儲(chǔ)與計(jì)算領(lǐng)域已經(jīng)形成了以分布式數(shù)據(jù)庫、數(shù)據(jù)倉庫、批處理平臺(tái)、流處理平臺(tái)為代表的總體技術(shù)框架,并廣泛應(yīng)用,已能夠支撐具有高并發(fā)、低延遲數(shù)據(jù)處理分析需求的極端場景。例如在“雙十一”場景中,大量營銷、交易風(fēng)控等自動(dòng)決策被嵌入業(yè)務(wù)流程,形成了復(fù)雜的數(shù)據(jù)處理分析鏈路。在技術(shù)能力已相對成熟的基礎(chǔ)上,以云化、湖倉一體為代表的深度優(yōu)化理念不斷涌現(xiàn),并逐步應(yīng)用,為數(shù)據(jù)存儲(chǔ)與計(jì)算領(lǐng)域進(jìn)一步降本提質(zhì)提供了新范式。
產(chǎn)業(yè)方面,全球疫情加速了數(shù)字化轉(zhuǎn)型進(jìn)程,數(shù)據(jù)存儲(chǔ)與計(jì)算領(lǐng)域的產(chǎn)業(yè)發(fā)展前景持續(xù)向好。國際方面,國際云數(shù)據(jù)倉庫巨頭Snowflake 2022年第三季度營收與去年同期相比上漲67%,達(dá)到5.5億美元;國內(nèi)方面,2021上半年我國大數(shù)據(jù)平臺(tái)市場規(guī)模達(dá)54.2億元,同比增長43.5%[1];2021年我國數(shù)據(jù)庫市場規(guī)模預(yù)計(jì)達(dá)305.78億元,同比增長26.93%[2]。同時(shí)我國大數(shù)據(jù)基礎(chǔ)軟件第一股星環(huán)科技于2022年10月成功上市科創(chuàng)板。數(shù)據(jù)存儲(chǔ)與計(jì)算領(lǐng)域市場增長趨勢和行業(yè)預(yù)期持續(xù)向好。
建設(shè)運(yùn)維方面,數(shù)據(jù)存儲(chǔ)與計(jì)算建設(shè)持續(xù)深入,安全穩(wěn)定運(yùn)行成為關(guān)注焦點(diǎn)。隨著數(shù)字化轉(zhuǎn)型的開啟,工商銀行、建設(shè)銀行、農(nóng)業(yè)銀行等頭部金融機(jī)構(gòu),電信、移動(dòng)、聯(lián)通等運(yùn)營商,大型互聯(lián)網(wǎng)公司以及諸多行業(yè)頭部企業(yè)均在數(shù)年前完成數(shù)據(jù)存儲(chǔ)與計(jì)算總體框架建設(shè)。近年來,隨著數(shù)據(jù)規(guī)模增多、價(jià)值提升,數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)逐漸復(fù)雜,運(yùn)維使用時(shí)的穩(wěn)定性保障和安全防護(hù)成為難題。2022年,Google、Twitter等公司的數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)均發(fā)生故障,同時(shí),全球范圍內(nèi)也發(fā)生多起針對數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)的惡性攻擊,相應(yīng)安全事件帶來的損失也不斷增高。
(二)當(dāng)前數(shù)據(jù)存儲(chǔ)與計(jì)算發(fā)展呈現(xiàn)三大特點(diǎn)
1. 云化改造全面加速
數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)持續(xù)與云融合,資源利用率進(jìn)一步提升。隨著云計(jì)算的發(fā)展,數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)逐漸從私有部署轉(zhuǎn)化為云上部署,初期體現(xiàn)為部署模式的不同,但伴隨著云原生理念的興起,云原生數(shù)據(jù)存儲(chǔ)與計(jì)算產(chǎn)品開始成為產(chǎn)業(yè)變革浪潮。利用云原生理念,數(shù)據(jù)存儲(chǔ)與計(jì)算一方面實(shí)現(xiàn)存儲(chǔ)、計(jì)算、調(diào)度、安全、分析等模塊的進(jìn)一步解耦,各模塊與容器等底層資源單元相適配,實(shí)現(xiàn)彈性擴(kuò)縮容,從而使得資源利用率提升30%~40%;另一方面實(shí)現(xiàn)應(yīng)用接口函數(shù)化,即利用 Serverless 的理念,將更多如統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、流程處理等能力封裝成函數(shù)接口,實(shí)現(xiàn)更細(xì)粒度的按需使用和付費(fèi),在提升2~3倍發(fā)布效率的同時(shí),有效降低成本。近年來,華為、騰訊云、阿里云、百度、星環(huán)等國內(nèi)主流大數(shù)據(jù)企業(yè)均推出云原生數(shù)據(jù)湖、云原生數(shù)據(jù)平臺(tái)等產(chǎn)品。2022年阿里云首款 Serverless數(shù)據(jù)庫產(chǎn)品RDS MySQL Serverless正式商業(yè)化,PingCAP在HTAP Summit上宣布TiDB Cloud Serverless Tier BETA版正式發(fā)布。
2. 融合一體化持續(xù)加深
批流一體、湖倉一體、HTAP(Hybrid Transaction Analytical Processing,混合事務(wù)與分析處理)等融合架構(gòu)不斷降低運(yùn)維成本。隨著數(shù)字化轉(zhuǎn)型的深入,企業(yè)通常會(huì)針對不同的業(yè)務(wù)場景、不同的數(shù)據(jù)模型搭建不同的平臺(tái)系統(tǒng),帶來了數(shù)據(jù)冗余、數(shù)據(jù)一致性差、資源配置難、系統(tǒng)復(fù)雜等問題,極大增加了運(yùn)維的壓力與成本。為解決上述問題,數(shù)據(jù)存儲(chǔ)與計(jì)算領(lǐng)域各技術(shù)產(chǎn)品轉(zhuǎn)向融合架構(gòu)成為趨勢,例如將批處理技術(shù)與流處理技術(shù)融合的批流一體技術(shù)框架、打通數(shù)據(jù)倉庫和數(shù)據(jù)湖技術(shù)的湖倉一體技術(shù)框架以及同時(shí)具備在線事務(wù)處理及分析的混合事務(wù)分析處理技術(shù)。建立融合架構(gòu)后,統(tǒng)一的接口層、計(jì)算層、存儲(chǔ)層、資源調(diào)度層實(shí)現(xiàn)了對海量數(shù)據(jù)的統(tǒng)一管理和集群服務(wù)的統(tǒng)一運(yùn)維,大幅降低了運(yùn)維綜合成本。國內(nèi)外廠商紛紛提出自己的融合架構(gòu)解決方案。例如,近年來海外廠商Databricks同戴爾推出Data LakeHouse、亞馬遜推出智能湖倉架構(gòu),2022年國內(nèi)廠商巨杉數(shù)據(jù)庫推出SequoiaDB、阿里云推出MaxCompute湖倉一體方案、星環(huán)科技推出星環(huán)湖倉一體V2.0等。
數(shù)據(jù)中間件技術(shù)為計(jì)算層與異構(gòu)存儲(chǔ)層搭建橋梁,提升整體運(yùn)行效率,進(jìn)一步加速數(shù)據(jù)平臺(tái)融合一體化。在存算分離后,存儲(chǔ)層為滿足不同類型數(shù)據(jù)存儲(chǔ)的需求,文件存儲(chǔ)、對象存儲(chǔ)、表存儲(chǔ)等多種異構(gòu)存儲(chǔ)引擎同時(shí)存在。計(jì)算層和異構(gòu)存儲(chǔ)引擎之間的連通復(fù)雜度越來越高,數(shù)據(jù)中間件技術(shù)應(yīng)運(yùn)而生,其通過內(nèi)置兼容接口和加速技術(shù),助力計(jì)算層與異構(gòu)存儲(chǔ)層高速互聯(lián)。例如開源的Alluxio向上對接Spark、Presto、Hive、TensorFlow等計(jì)算應(yīng)用,向下對接阿里云OSS對象存儲(chǔ)、AWS S3存儲(chǔ)、HDFS等不同存儲(chǔ),可提升I/O效率200%以上;ShardingSphere 將多類異構(gòu)數(shù)據(jù)庫MySQL、PostgreSQL、Oracle、SQL Server、openGauss等包裝為統(tǒng)一數(shù)據(jù)庫訪問接口,從而方便多種編程語言直接訪問多類異構(gòu)數(shù)據(jù)庫。
3. 安全能力快速補(bǔ)強(qiáng)
數(shù)據(jù)存儲(chǔ)與計(jì)算面臨著新型安全挑戰(zhàn),內(nèi)生安全正成為傳統(tǒng)防護(hù)的重要補(bǔ)充。一是隨著自身規(guī)模不斷龐大,數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)的邊界不斷延伸,網(wǎng)絡(luò)安全防護(hù)體系隨之指數(shù)級(jí)膨脹,容易出現(xiàn)盲點(diǎn)、漏點(diǎn);二是伴隨數(shù)據(jù)開發(fā)利用的深化,數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)中的關(guān)鍵數(shù)據(jù)與其他系統(tǒng)將進(jìn)行高頻的互聯(lián)互通,安全和效率難以均衡;三是數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)的技術(shù)組件60%以上基于開源技術(shù),容易遭遇“0day”攻擊;四是數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)中數(shù)據(jù)集中存儲(chǔ),但操作人員類型多、數(shù)量多、變更多,操作頻次高,存在數(shù)據(jù)泄露風(fēng)險(xiǎn)。2022年1月,美國交通運(yùn)輸業(yè)商業(yè)信用報(bào)告機(jī)構(gòu)TransCredit因配置錯(cuò)誤致使數(shù)據(jù)庫無密碼保護(hù),共計(jì)涉及50萬人財(cái)務(wù)數(shù)據(jù)的60多萬條信用記錄泄露;2022年6月,土耳其飛*空公司因其AWS云存儲(chǔ)桶未受保護(hù),發(fā)生總計(jì)約6.5TB的數(shù)據(jù)泄露,其中包含敏感的飛行數(shù)據(jù);2022年10月,跨國集團(tuán)湯森路透因配置錯(cuò)誤導(dǎo)致存有3TB敏感數(shù)據(jù)的Elasticsearch數(shù)據(jù)庫發(fā)生泄漏。近年來頻發(fā)的數(shù)據(jù)泄漏事件,使得全密態(tài)執(zhí)行環(huán)境、敏感數(shù)據(jù)自動(dòng)識(shí)別、高效數(shù)據(jù)加解密、細(xì)粒度的權(quán)限控制、零信任等內(nèi)生安全技術(shù)在數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)產(chǎn)品中的應(yīng)用不斷增加,與傳統(tǒng)網(wǎng)絡(luò)安全防護(hù)相輔相成。近一年,華為云、阿里云相繼推出全密態(tài)數(shù)據(jù)庫,星環(huán)科技TDH、阿里云Dataworks紛紛加入敏感數(shù)據(jù)識(shí)別能力,亞馬遜RDS增加內(nèi)置防火墻。
(三)數(shù)據(jù)存儲(chǔ)與計(jì)算面臨的主要挑戰(zhàn)與發(fā)展趨勢
經(jīng)過半世紀(jì)的發(fā)展,數(shù)據(jù)存儲(chǔ)與計(jì)算領(lǐng)域總體技術(shù)框架基本成熟,產(chǎn)業(yè)穩(wěn)步發(fā)展,為上層各類數(shù)據(jù)應(yīng)用誕生提供了堅(jiān)實(shí)基礎(chǔ)。但隨著數(shù)字化轉(zhuǎn)型從頭部行業(yè)向傳統(tǒng)行業(yè)延伸、數(shù)據(jù)的生產(chǎn)要素屬性不斷凸顯,數(shù)據(jù)存儲(chǔ)與計(jì)算領(lǐng)域也迎來新的挑戰(zhàn)。一是數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)建設(shè)運(yùn)營成本仍需控制。數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)規(guī)模體量大、建設(shè)周期長、前期投入高,但投資回報(bào)率卻相對較低。隨著疫情以來經(jīng)濟(jì)大環(huán)境發(fā)生變化,企業(yè)需要更加理性、務(wù)實(shí)的開展數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)建設(shè),從實(shí)際收益的角度進(jìn)行評估論證和精細(xì)化運(yùn)營,同時(shí)數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)也應(yīng)從降低運(yùn)維使用成本等方面優(yōu)化提升。二是促進(jìn)數(shù)據(jù)要素市場化的數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)創(chuàng)新仍需加強(qiáng)。隨著數(shù)據(jù)成為生產(chǎn)要素,數(shù)據(jù)的潛在價(jià)值愈發(fā)受到重視,但當(dāng)前數(shù)據(jù)要素市場建設(shè)面臨數(shù)據(jù)權(quán)屬、定價(jià)、安全保護(hù)等難點(diǎn)問題,這其中的一些問題是否能通過數(shù)據(jù)存儲(chǔ)與計(jì)算相關(guān)技術(shù)得到解決或加以規(guī)避,正在成為擺在數(shù)據(jù)存儲(chǔ)與計(jì)算領(lǐng)域發(fā)展過程中的關(guān)鍵命題。
未來,數(shù)據(jù)存儲(chǔ)與計(jì)算領(lǐng)域呈現(xiàn)以下三點(diǎn)趨勢。
一是技術(shù)和管理雙管齊下,探索數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)精細(xì)化運(yùn)營之路。據(jù)Wikibon研究,全球范圍內(nèi)企業(yè)數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)的平均投資回報(bào)率僅為55%,46%的企業(yè)數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)未達(dá)到預(yù)期價(jià)值。投資回報(bào)率低成為制約數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)滲透率進(jìn)一步提升的重要因素,產(chǎn)業(yè)正嘗試從技術(shù)和管理兩方面探索精細(xì)化運(yùn)營之路。技術(shù)方面,核心計(jì)算、存儲(chǔ)等模塊嘗試與AI結(jié)合,通過智能資源調(diào)度、智能數(shù)據(jù)分層存儲(chǔ)等,實(shí)現(xiàn)精細(xì)化運(yùn)營;管理方面,探索公司內(nèi)部成本分?jǐn)偡绞?,從而避免業(yè)務(wù)部門無成本觀念式使用數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái),例如技術(shù)部門向業(yè)務(wù)部門售賣資源模式、按業(yè)務(wù)部門使用量計(jì)費(fèi)模式等。
二是數(shù)據(jù)編織(Data Fabric)、全密態(tài)數(shù)據(jù)庫等新理念新技術(shù)不斷成熟,為數(shù)據(jù)的要素價(jià)值釋放提供更強(qiáng)力的技術(shù)底座。數(shù)據(jù)要素市場形成涉及數(shù)據(jù)權(quán)屬、定價(jià)、安全保護(hù)等一系列問題,傳統(tǒng)數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)重點(diǎn)關(guān)注計(jì)算、存儲(chǔ)效率,未解決數(shù)據(jù)要素市場面臨的問題。隨著數(shù)據(jù)規(guī)模和數(shù)據(jù)關(guān)系復(fù)雜度的增加、數(shù)據(jù)權(quán)屬問題的復(fù)雜化,傳統(tǒng)集中式數(shù)據(jù)管理模式無法滿足需求,出現(xiàn)了Data Fabric這一概念。Data Fabric基于主動(dòng)型元數(shù)據(jù)、增強(qiáng)數(shù)據(jù)目錄、數(shù)據(jù)虛擬化等技術(shù),形成了一套分布式、自動(dòng)化、智能化的新型數(shù)據(jù)管理形式,當(dāng)前IBM已經(jīng)推出了相關(guān)解決方案。全密態(tài)數(shù)據(jù)庫使數(shù)據(jù)在傳輸、計(jì)算以及存儲(chǔ)的各個(gè)環(huán)節(jié)始終都處于密文狀態(tài),從而解決數(shù)據(jù)全生命周期的隱私保護(hù)問題,提供數(shù)據(jù)要素安全保護(hù)的能力,目前阿里云、華為均已推出相關(guān)產(chǎn)品。
三是我國數(shù)據(jù)存儲(chǔ)與計(jì)算領(lǐng)域技術(shù)和產(chǎn)品將逐步走向海外市場。我國數(shù)據(jù)存儲(chǔ)與計(jì)算領(lǐng)域產(chǎn)業(yè)經(jīng)過多年發(fā)展,在部分技術(shù)領(lǐng)域的供給能力已經(jīng)達(dá)到國際一流水平。當(dāng)前,以東南亞為代表的新興數(shù)字經(jīng)濟(jì)市場規(guī)模正在快速增長,數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)平臺(tái)的建設(shè)需求十分旺盛。根據(jù)谷歌、淡馬錫和貝恩公司發(fā)布的《2021年東南亞數(shù)字經(jīng)濟(jì)調(diào)查報(bào)告》顯示,東南亞數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)將在五年內(nèi)實(shí)現(xiàn)翻倍增長,在2026年達(dá)到3600億美元。在這一背景下,二十大報(bào)告中提出“發(fā)展數(shù)字貿(mào)易”,商務(wù)部、中央網(wǎng)信辦、工信部聯(lián)合印發(fā)《數(shù)字經(jīng)濟(jì)對外投資合作工作指引》,推動(dòng)我國在數(shù)字經(jīng)濟(jì)領(lǐng)域逐漸形成對外開放新格局。當(dāng)前,我國數(shù)據(jù)存儲(chǔ)與計(jì)算領(lǐng)域的部分企業(yè)已開始走向海外市場,阿里巴巴、騰訊等企業(yè)已經(jīng)開始借助自身全球云計(jì)算網(wǎng)絡(luò)基礎(chǔ),PingCAP、OceanBase等企業(yè)借助開源優(yōu)勢,助力其數(shù)據(jù)庫、大數(shù)據(jù)產(chǎn)品突破日本、印尼等海外市場。