Data Mesh的四個原則
以下四個原則可以形塑Data Mesh的邏輯架構和運作模型的基礎。這些原則旨在幫助我們實現Data Mesh的目標:大規模地增加資料價值,隨著組織的發展保持敏捷性,並在複雜多變的業務環境中擁抱變化。
業務領域所有權
將分析資料(Analytical data)的所有權分散到最接近資料的業務領域 — 資料來源或其主要使用者。 根據其所代表的業務領域對資料進行邏輯分解,並獨立管理基於”業務領域導向”資料的生命週期。所以架構面與組織面可以與業務/技術/分析資料對一致。
使用此一原則能讓組織:
- 擴展資料共享的能力與組織成長的軸線一致:資料來源數量的增加、資料使用者數量的增加以及資料使用型態多樣性的增加
- 透過從本地化的變更到業務領域來優化持續變更
- 透過減少跨團隊同步並消除”資料團隊、資料倉儲和資料湖架構”的中心化瓶頸來實現敏捷性
- 透過縮小資料的真實來源與資料用於分析案例的地點和時間之間的差距來提高資料業務資料的真實性
- 透過消除複雜的資料流水線來提高"分析和機器學習解決方案"的韌性
資料就是產品
根據這項原則,業務領域導向的資料將作為產品直接與資料使用者(資料分析師、資料科學家等)共享。 資料作為產品遵循一組可用性特徵:
- 可搜尋
- 可定址
- 可理解
- 能被信任
- 可本地存取
- 可互動與組合
- 本身就有價值
- 安全的
資料產品提供了一組明確定義且易於使用的資料共享規則。 每個資料產品都是自治的(Autonomous),其生命週期和模型獨立於其他資料產品進行管理。 資料即產品我們可以把它看成是一個建構區塊(Building block)的邏輯架構單元,它可以自主控制和封裝將資料作為產品共享所需的所有結構組件(資料、metadata、代碼、政策和基礎設施相依性的宣告) 。
使用此一原則能讓組織:
- 透過改變團隊與資料的關係,進而去除因為建立業務領域導向的資料孤島的可能性。 資料成為企業內團隊共享的產品,而不是只有各自的資料收集變孤島。
- 透過簡化”點對點、無摩擦的”探索和使用高品質資料的體驗,創造數據驅動的創新文化。
- 透過資料產品之間的built-time和run-time的隔離以及明確定義的資料共享規則來建立適應變化的韌性,這樣改變一個資料產品就不會破壞其他資料產品的穩定性。
- 透過跨團隊邊界共享和使用資料,從資料中獲取更高的價值。
自助式資料平台
此原則催生了新一代自助式平台服務,使業務領域的跨職能團隊能夠共享資料。 此平台服務的核心是消除從來源端到使用端的端到端資料共享過程中的摩擦。 平台服務管理單一資料產品的整個生命週期。 他們管理著可靠且互相連結的資料產品。 它們提供mesh level體驗,例如在Data Mesh中呈現新興知識圖和譜系(lineage)。 平台簡化了資料使用者(資料分析師與科學家)探索、存取和使用資料產品的體驗。 它簡化了資料提供者"建置、部署和維護"資料產品的體驗。
使用此一原則能讓組織:
- 降低資料分散所有權的總體成本。
- 抽象化地資料管理的複雜性並減少業務領域團隊在管理資料產品的端到端生命週期時的認知負擔。
- 動員更多的開發人員(技術通才)開始資料產品開發並減少對專業化的需求。
- 自動化治理政策,為所有資料產品建立安全性和合規性標準。
聯邦式治理
此原則建立了一個基於聯合決策和問責結構的資料治理營運模型,團隊由業務領域代表、資料平台和SME(法律、合規、安全等)組成。此營運模型建立激勵和約束機制。平衡業務領域的自主性和敏捷性與Data Mesh的全域互通性的問責架構。 治理執行模型完全依賴透過平台服務對每個資料產品進行細緻度的政策編碼和自動化。
使用此一原則能讓組織:
- 能夠從獨立但可互通的資料產品的聚合和關聯中獲得價值
- 應對業務領域導向的去中心化的不良後果:業務領域的不相容和不連接
- 在分散式資料產品Data Mesh中建構安全、隱私、法律合規性等跨領域治理要求成為可能
- 減少領域和治理功能之間手動同步的精力
各領域的交互作用
以上四個領域都是互相互補的,每一個原則都解決了其他可能出現的新挑戰。(如下圖所示)
例如,分散式的業務領域導向的資料所有權可能會導致業務領域內的資料孤島,這可以透過將資料作為產品原則來解決,該原則要求業務領域有責任地在業務領域內外共享具有類似產品品質的資料。
同樣,資料產品的領域所有權可能會導致重作、增加資料產品所有權成本並降低資料共享效率。 在這種情況下,自助資料平台賦能跨職能領域團隊分享和使用資料產品。 該平台的目標是降低業務領域團隊的認知負荷、減少不必要的作業、提高業務領域的生產力並降低整體成本。
Data Mesh Model的簡圖
我們可以把Data Mesh想成以下的運作模式。
具跨職能團隊的業務領域正在透過數位應用程式和資料產品實現業務領域的目標。 每個業務領域透過規則共享其資料和服務。 資料產品可以由新業務領域組成和擁有。 整體政策由各領域的代表共同定義。 這些政策與其他平台服務整合成一個自動化功能。 這是Data Mesh的簡化操運作模型。
資料模式
Data Mesh專注於分析資料(Analytical data)。 它認知到兩種資料模式的模糊界限,導入了兩者緊密整合的新模型,但尊重它們之間的明顯差異。
營運資料(operational data)與分析資料有甚麼不同呢?
營運資料(operational data)
營運資料支援業務運作並保持業務的現行狀態和交易完整性。 這些資料由 OLTP 系統透過交易(transactions)即時擷取、儲存和處理。
營運資料處於支援業務功能的微服務、應用程式或記錄系統的資料庫中。 它維持業務的現行狀態。 營運資料的建模和儲存針對應用程式或微服務邏輯和存取模式進行了最佳化。 它不斷更新,並具有讀寫權限。 它的設計必須考量到多人同時以不可預測的順序更新相同的資料,這導致會有transaction產生。資料存取還涉及相對即時的活動。
營運資料稱為「內部資料」。 它是應用程式或微服務的專有資料,對其執行 CRUD操作。 可以透過 API(例如 REST、GraphQL 或事event)刻意的在外部共用營運資料。 外部的營運資料與內部的營運資料具有相同的性質。
營運資料記錄業務中發生的情況,支援特定於業務交易的決策。 簡而言之,營運資料直接用於運營業務並服務終端使用者。
今天,收集營運資料,然後將其轉換為分析資料。 分析資料訓練機器學習模型,然後將其作為智慧服務進入企業的營運體系。
分析資料
這是作為營運業務而產生資料的歷史、整合和聚合視圖(也就是副產品)。 它由OLAP系統維護和使用。
分析資料是隨時間變化的業務狀況的時態、歷史歷程且通常是聚合的視圖。 它被建模為提供"回顧性或未來視角"的見解。 分析資料針對分析邏輯進行了最佳化 — — 訓練機器學習模型並建立報告和視覺化。 分析資料是「外部資料」類別的一部分,是資料使用者(資料科學家、分析師)直接存取的資料。
分析資料是有歷史性的。 分析資料是用在尋找一段時間內的比較和趨勢,而許多營運資料通常不需要太多歷史記錄。 分析資料存取模式往往包括對大量資料進行密集讀取,而寫入者較少。 分析資料作為非揮發性、整合的、隨時間變化的資料集的最初定義仍然有效。
簡而言之,分析資料用於優化業務和使用者體驗。 這些資料推動了組織的AI和分析期望。
以線上音樂串流舉例,根據聽眾的音樂品味和喜愛的音樂家推薦的播放清單來優化聽眾的體驗非常重要。 幫助訓練播放清單推薦機器學習模型的分析資料可以擷取聽眾過去的所有行為以及聽眾喜歡的音樂的所有特徵。 這種匯總的歷史視圖是分析資料。 今天,分析資料儲存在資料倉儲或資料湖中。
起源
美國歷史學家和科學哲學家托馬斯·庫恩(Thomas Kuhn)在他的著作《科學革命的結構(The Structure of Scientific Revolutions)》中介紹了典範轉移(Paradigm shift)。 他觀察了科學如何以兩種主要模式取得進部:漸進式和破壞式; 科學在長期連貫的常規科學中取得了進步,其中現有的理論構成了所有進一步研究的基礎,隨後偶爾會出現斷斷續續的典範轉移,挑戰並超越了現有的知識和規範。 例如,科學從牛頓力學到量子力學的進步被認為是典範轉移,因為科學家無法再用現有理論解釋量子層面的物理控制定律。庫恩認知到典範轉移的先決條件是識別異常現象,不符合現有規範的觀察,並進入危機階段,質疑現有典範在解決新問題和觀察時的有效性。 他還觀察到,人們越來越絕望地嘗試在現有解決方案中引入不可持續的複雜性來解釋異常情況。
這幾乎完全符合Data Mesh的起源及其原理。 它來自於對異常現象以及危機時刻的認知,其中現有資料解決方案的特徵不太適合當今企業的現實。 在資料處理方法的發展過程中,我們正處於庫恩所說的危機時刻。 因此,需要一種新的典範。
Data Mesh原理是新穎的。Data Mesh的原則是對過去二十年發展的實踐的概括和適應,並被證明可以解決我們最後一個複雜性挑戰:
組織大規模數位化帶來的軟體複雜性規模
Data Mesh原則是數位化組織如何解決組織成長和複雜性的基礎,同時實現前所未有的數位化期望:將所有服務轉移到網路上,在與客戶的每個接觸點使用行動設備,並透過大多數的自動化活動來減少組織內所有人的認知同步。 它們是對先前軟體典範轉變的適應:微服務和 API 革命、基於平台的團隊拓撲、治理模型(例如零信任架構)以及跨多個雲端和託管環境安全地操作分散式解決方案。