隨著大數據技術的不斷更新和迭代,數據管理工具得到了飛速的發展,相關概念如雨后春筍一般應運而生,如從最初決策支持系統(DSS)到商業智能(BI)、數據倉庫、數據湖、數據中臺等,這些概念特別容易混淆,下面我們將圍繞BI、數據倉庫、數據湖和數據中臺的區別進行介紹。
商業智能(BI)
商業BI是一套完整的解決方案,用來將企業中現有的數據進行有效的整合,快速準確的提供報表并提出決策依據,幫助企業做出明智的業務經營決策。一般包括數據倉庫、報表查詢、數據分析、數據挖掘、數據可視化等部分。
首先從業務系統數據中提取有用的數據并進行清理,以保證數據的正確性,然后經過抽取、轉換和裝載,合并到數據倉庫,得到企業數據全局視圖,再利用合適工具等對其進行分析和處理,最后將知識呈現給管理者,為管理者的決策過程提供支持。
數據倉庫
數據倉庫(Data Warehouse),也稱為企業數據倉庫,它是一個面向主題的、集成的、相對穩定的、反映歷史變化的包含多種數據的存儲庫,并且是高度建模的數據集合存儲系統。它將來自不同業務、系統的結構化數據聚合起來,幫助公司把運營數據轉化成為高價值的可以獲取的信息,為管理分析和業務決策提供統一的數據支持,幫助建構商業智能(BI)。
數據湖
數據湖(Data Lake)是一個存儲企業的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。數據湖是以其自然格式存儲的數據的系統或存儲庫,通常是對象Blob或文件。數據湖通常是企業所有數據的單一存儲,包括源系統數據的原始副本,以及用于報告、可視化、分析和機器學習等任務的轉換數據。數據湖可以包括來自關系數據庫(行和列)的結構化數據,半結構化數據(CSV,日志,XML,JSON),非結構化數據(電子郵件,文檔,PDF)和二進制數據(圖像,音頻,視頻)。
數據倉庫與數據湖差異
1、在儲存方面上,數據湖中數據為非結構化的,所有數據都保持原始形式。存儲所有數據,并且僅在分析時再進行轉換。數據倉庫就是數據通常從事務系統中提取。
2、在將數據加載到數據倉庫之前,會對數據進行清理與轉換。在數據抓取中數據湖就是捕獲半結構化和非結構化數據。而數據倉庫則是捕獲結構化數據并將其按模式組織。
3、數據湖的目的就是數據湖非常適合深入分析的非結構化數據。數據科學家可能會用具有預測建模和統計分析等功能的高級分析工具。而數據倉庫就是數據倉庫非常適用于月度報告等操作用途,因為它具有高度結構化。
4、在架構中數據湖通常,在存儲數據之后定義架構。使用較少的初始工作并提供更大的靈活性。在數據倉庫中存儲數據之前定義架構。
數據中臺
數據中臺是指通過企業內外部多源異構的數據采集、治理、建模、分析,應用,使數據對內優化管理提高業務,對外可以數據合作價值釋放,成為企業數據資產管理中樞。數據中臺建立后,會形成數據API,為企業和客戶提供高效各種數據服務。
數據中臺整體技術架構上采用云計算架構模式,將數據資源、計算資源、存儲資源充分云化,并通過多租戶技術進行資源打包整合,并進行開放,為用戶提供“一站式”數據服務。利用大數據技術,對海量數據進行統一采集、計算、存儲,并使用統一的數據規范進行管理,將企業內部所有數據統一處理形成標準化數據,挖掘出對企業最有價值的數據,構建企業數據資產庫,提供一致的、高質量的大數據服務。
數據中臺不是一套軟件,也不是一個信息系統,而是一系列數據組件的集合,企業基于自身的信息化建設基礎、數據基礎以及業務特點對數據中臺的能力進行定義,基于能力定義利用數據組件搭建自己的數據中臺。
數據倉庫與數據中臺的差異
計算存儲上
傳統的數據倉庫基于OLAP類型的數據庫,后續發展為MPP、Hadoop、GreenPlum混合架構。數據中臺從一誕生起,就使用Hadoop、MPP、RDS、Flink等混合架構,隨需搭配,滿足各類數據計算的要求。
應用場景和價值體系
數據中臺的應用場景比傳統的數據倉庫應用場景廣泛得多。傳統的數倉只是滿足領導和業務人員數據決策的需要,因此更多的體現在報表輸出,使用者以小部分的業務人員和決策層為主,新需求的開發周期以月甚至到年為計。而數據中臺由于起家于互聯網企業,其使用對象擴大到一線服務人員和商家企業,其業務需求更繁雜,包含商品推薦、精準廣告展示、客戶滿意度評價等等諸多不確定性的應用場景,很難用傳統的報表系統滿足需求,因此必須要使用隨需應變的數據服務來快速滿足不斷變化的業務需求。
體系架構
數據中臺是由多個組件構成,除了計算平臺外,其方案由多個分布式服務系統提供,滿足不同業務需求和高并發和系統自動擴容需求,除了大數據存儲和計算平臺外,還包含數倉建設、數據開發IDE、任務調度、數據同步服務、數據治理、對外統一數據服務、資產管理系統、實時流計算平臺和開發平臺,敏捷BI報表開發等多個組件,通過多個組件組成一整套方案。這一點傳統的數據倉庫是遠遠達不到的。
數據倉庫與BI差異
商業智能BI相比于數據倉庫,它是一個更大的概念。商業智能可以說是基于數據倉庫,經過了數據挖掘后,得到了商業價值的過程。所以說數據倉庫是個金礦,數據挖掘是煉金術,而商業報告則是黃金。數據倉庫就像是 BI 這個房子的地基,搭建好 DW 這個地基之后,才能進行分析使用,最后產生價值。
BI工具推薦
億信華辰作為中國專業的商業智能BI和數據治理軟件提供商,一直致力于為政企用戶提供從數據采集、存儲、治理、分析到智能應用的智能數據全生命周期管理方案,幫助企業實現數據驅動、數據智能,已積累了8000多家用戶的服務和客戶成功經驗,為客戶提供數據分析平臺、數據治理系統搭建等專業的產品咨詢、實施和技術支持服務。其在2021中國數據智能/ 數據中臺生態圖譜的商業智能領域榜上有名。
(部分內容來源網絡,如有侵權請聯系刪除)