何謂資料湖泊?

資料湖泊是中央資料儲藏庫,可協助解決資料孤島問題。

為了方便起見,此網頁已進行機器翻譯。SAP 對於機器翻譯的正確性或完整性不提供任何保證。您可按一下此頁面右上角的國旗圖示,找到原始英文網頁。

資料湖泊概觀

就本質而言,資料湖泊是資訊的儲藏庫。資料湖泊經常會與資料倉儲混淆,但兩者滿足的企業需求不同,而且架構也不同。尤其是隨著社交資料、物聯網(IoT)機器資料和交易資料火速激增,雲端資料湖泊成為現代資料管理策略中相當重要的一部分。儲存、轉換和分析任何資料類型的能力,為新的商機和數位轉型鋪路,就是資料湖泊所能發揮的作用。

90

%

的金融機構認為大數據方案奠定未來成功的基礎

64.2

ZB 的數位資料於 2020 年建立

176

億美元

是資料湖泊市場在 2026 年的預估價值

資料湖泊定義

資料湖泊是一個中央資料儲藏庫,有助於解決資料孤立問題。重要的是,資料湖泊會以原生或原始格式來儲存大量原始資料。該格式可以是結構化、非結構化或半結構化的。資料湖泊,尤其是雲端中的資料湖泊,不僅成本低、易擴充,而且經常與套用的機器學習分析搭配使用。

資料湖泊與資料倉儲

相較於資料湖泊,資料倉儲提供資料管理功能,並可儲存已先針對預先定義之企業問題或使用案例處理過的已處理和已篩選資料。

資料倉儲與資料湖泊的比較圖。

資料倉儲和資料湖泊經常互相補充。例如,當需要儲存在資料湖泊中的原始資料以回答企業問題時,便可擷取、清除、轉換資料並將其用於資料倉儲以供進一步分析。

 

「資料湖倉一體」(Data Lakehouse)是一個不斷發展的新概念,它在傳統的資料湖泊上增加了資料管理功能。本質上,它是資料湖泊和資料倉儲的結合。

 

除了上述資料類型和程序中的差異外,以下還有一些比較資料湖泊與資料倉儲解決方案的詳細資料。

Edit Table Feature Comparison Component

最後,資料量、資料庫效能和儲存定價將在選擇正確儲存解決方案中扮演重要角色。

資料湖泊解決方案的關鍵要素

  • 資料移動:資料湖泊允許以原生格式從多個來源匯入任何資料類型。這可讓企業依需求調整資料大小,而無須定義資料結構、綱要和轉換,進而節省營運成本。

  • 安全儲存和目錄資料:資料湖泊會儲存來自各種來源(例如 CRM 或 ERP 軟體的業務資料、物聯網裝置、社群媒體,甚至是舊系統的歷史資料)的結構化、半結構化與非結構化資料。資料湖泊可讓您擷取批次和串流資料,同時套用管理、安全性和控制。而資料可供直接查詢,或使用正確工具擷取到資料倉儲中。

  • 分析和機器學習:資料湖泊允許根據角色來存取資訊以執行分析和機器學習分析,無須將資料移至不同的分析資料庫。此外,資料湖泊允許結合歷史資料與即時資料,以改善機器學習或預測分析模型,提供更好和/或新的結果。

資料湖泊的運作方式

現代資料湖泊有三個主要功能:

  1. 原始資料的登錄區
  2. 用於轉換資料以分析目的的暫存區
  3. 用於供分析工具和應用程式利用資料,進而饋送機器學習模型的資料探索區

從資料湖泊將資訊饋送至各種來源,例如分析或其他企業應用程式,或是機器學習工具,以供進一步分析之用。

 

資料湖泊使用案例

以下為兩個零售業資料湖泊使用案例的範例。

 

長期銷售資料會與網站點擊流、天氣、新聞和微觀/宏觀經濟資料等非結構化資料一起儲存在資料湖泊中。將這些資料儲存在一起並賦予存取權,能讓資料科學家更容易將這些不同資訊來源結合起來組成模型,以預測對特定產品或產品線的需求。然後可將此資訊作為零售 ERP 系統的輸入,以推動後續增加或減少的生產計劃。

 

同時,行銷專家可以存取資料同一個湖泊,並查看網站及社群媒體與新聞互動的情緒分析、宏觀經濟和銷售歷史資料,以判斷要注重哪些產品以及大幅提升銷售、利潤和/或採用的最佳方式。

資料湖泊的類型

資料湖泊可位於就地部署、雲端部署、兩者的混合部署,以及跨多個雲端的超大規模部署,例如 Amazon Web Services(AWS)、Microsoft Azure 或 Google Cloud。

 

到目前為止,最受歡迎的資料湖泊是雲端資料湖泊。雲端資料湖泊提供所有一般資料湖泊功能,但位於完全受管理的雲端服務中。

  • 就地部署資料湖泊:透過就地部署資料湖泊,內部 IT 工程資源可以管理硬體、軟體和程序。此方法具有較高的資本支出(CAPEX)承諾,而且資料傾向孤立。

  • 雲端資料湖泊:在雲端資料湖泊中,就地部署基礎架構是委外的。其營運支出(OPEX)承諾較高,但此部署方法可讓企業輕鬆擴大規模,並且具有其他諸多效益(請參閱下文)。

  • 混合資料湖泊:在某些情況下,一些公司會選擇同時維護就地部署和雲端資料湖泊。這種情況比較罕見,主要出現在從就地部署移轉至雲端的情境中。

  • 多重雲端資料湖泊:在多重雲端資料湖泊中,會結合兩個以上的雲端產品;例如,企業可同時使用 AWS 和 Azure 來管理和維護雲端資料湖泊。這需要更多的專業知識才能確保不同平台可互相溝通。

雲端資料湖泊的六大效益

為何選擇雲端資料湖泊?將資料轉變成高價值的商業資產,推動數位轉型。將雲端優點與資料湖泊相結合,可提供推動轉型的基礎。雲端資料湖泊允許公司將分析應用於歷史資料,以及日誌檔案、點擊流、社群媒體、網際網路連線裝置等新資料來源,以獲取可據以行動的洞察。

 

以下為您可預期的一些關鍵效益:

  1. 成本效益:雲端儲存供應商提供許多儲存和定價選項。
  2. 自動擴充:雲端服務旨於提供擴充功能,允許企業依需求計算並利用儲存容量。
  3. 中央資料儲藏庫:雲端資料湖泊會將資訊整合在一起,作為具有受管理資料存取權的單一事實來源,可提高團隊之間的程序效率。
  4. 資料安全性:雲端儲存供應商透過共用責任模型保證資料的安全性。
  5. 工具:雲端儲存供應商和其他供應商提供的 ETL 工具,可以耙梳資料、建立資料目錄,並執行資料準備、資料轉換和資料擷取,以便查詢資料。
  6. 改善分析以獲得新洞察和更好的業務成果:雲端資料湖泊可以新的方式結合資料。例如,CRM 資料和社群媒體分析可為客戶提供流失原因的新客戶洞察,或顯示可提高忠誠度的促銷活動。此外,還可透過分析物聯網資料,提升營運效益。

資料湖泊常見問題

在下方探索關於資料湖泊的常見問題,並查看資料管理辭彙以瞭解更多定義。

「資料湖泊」一詞的演變,反映出具流動性且儲存資料量更大的概念,特別是與更孤立、定義明確且結構化的資料市集相比。

 

十多年前,隨著資料來源數量成長,資料湖泊也隨之發生變化,以解決儲存數以 PB 計的未定義資料供後續分析之用的需求。早期的資料湖泊是以就地部署資料中心為基礎的 Hadoop 檔案系統(HDFS)和商品硬體為基礎。然而,分散式架構的固有挑戰,以及對自訂資料轉換和分析的需求,導致以 Hadopp 為基礎的系統效能欠佳。

 

雲端運算和資料儲存技術現已成為現代資料堆疊和雲端資料湖泊的主要基礎。

資料倉儲(DW)是一種數位儲存系統,可連結並協調許多不同來源的大量結構化和格式化資料。相較之下,資料湖泊會以原始格式儲存資料,即未結構化和未格式化。

資料管理是收集、組織和存取資料,以支援生產力、效率和決策制定的過程。

資料湖倉一體在傳統資料湖泊的功能之上,增加了資料管理和倉儲功能。這是一個正在迅速變化的新興領域。

多重雲端是指在單一異質架構中使用多個雲端運算和儲存服務。這指的是譬如將雲端資產、軟體和應用程式在多個雲端主控環境之間進行分配。

檔案儲存會以資料夾中的檔案階層來組織和呈現資料;區塊儲存會將資料分成一塊塊任意組織、大小均勻的磁碟區;而物件儲存可管理資料並將其連結至相關聯的中繼資料。物件儲存系統允許保留大量的非結構化資料。

placeholder

開始使用資料湖泊解決方案

探索 SAP HANA Cloud [SAP HANA 雲] 中的資料湖泊功能。

placeholder

您在其他地方無法找到的想法

立即註冊以取得商務智慧,直接傳送至您的收件匣。