FinOps-管理費用異常的能力

運用"雲端服務"加速企業的數位轉型願景

Jun 6, 2024

此能力的目標:

定義甚麼是異常
偵測異常的方式
理解為什麼異常偵測和跟進很重要
分類流程的價值
建立關於異常的KPI

定義

FinOps 背景脈絡下的異常是雲端支出的不可預測的變化（通常是增加），其大於歷史支出(或預期)模式的預期。

異常管理是指及時偵測、識別、澄清、告警和管理意外或不可預測的雲端成本事件的能力，以最大程度地減少對業務、成本或其他方面的不利影響。

為何它是重要的

雲端的本質是變動的，專注於資源的波動以確保正確監控雲端成本對於確保有效利用雲端使用量至關重要。

異常告警可以協助我們追蹤服務行為的潛在浪費和意外變化，這些行為可能是由於代碼變更或潛在的安全問題或是設定變更造成的

管理異常也將成為 FinOps 職能和資安之間的重要接觸點。安全異常偵測工具可能會偵測到不會顯著影響成本的問題，反之亦然(因為看待面向不同)。

異常資料可以透過機器學習來識別，但通常需要人類進一步分析/調查。異常偵測可以近乎即時地採取行動，否則這些異常可能會在月底帳單產生之後才會被發現。實施異常檢測也有助於解決廠商之間的爭議，避免踢皮球。

異常偵測使 FinOps 團隊能夠快速做出反應，以維持組織預期的費用支出水準。 要快速找到雲端裡的一根針，使用基於機器學習的自動化偵測檢測是關鍵。 這些工具通常由CSP和第三方平台提供。

當團隊部署資源並期望維持預算，然後發現其趨勢超出預算時，通常會發生異常情況。這可能是由於資源的價格高於計劃，或啟動某些資源在其他服務中產生了意外的成本。例如，啟動一組新的K8S Cluster也可能觸發日誌記錄資料意外大幅增加。

解決異常通常涉及一定程度的調查，然後進行更改以調整環境，或調整受影響範圍的成本預期。另一種解決方案可能是簡單地承認異常情況。例如，針對新專案需要建立其測試環境，故產生了一組新資源。如果這種環境以前不存在，則可能會被標記為異常，因為它與歷史支出模式不同。因此，雖然自動化工具會認為這是異常的，但從人類啟動新環境的角度來看，這是預期的，並且在確保其處於新環境的預期新成本範圍內後，可以消除異常。

偵測與通知的方法

偵測

統計方式:

絕對差異法 — 實際成本與預測成本之間的差異
相對方法 — 實際成本至少比預測成本高 1.25 倍
機率法 — 演算法使用一定範圍內 99% 的機率來預測成本

機器學習方式 — 演算法選擇某種模式並進行跟新

通知

告警與通知
資料視覺化(各種統計方式或ML產生的圖形)

異常的種類

異常通常是發生在不同的時間區間內，例如:

一次性的成本升高 — 這可能是新環境的佈署
逐步地 — 這可能是公司的業績開始上揚
服務連續性 — 某個服務應該是暫時的，但一直沒關掉

偵測異常的挑戰

異常偵測的挑戰之一是減少誤報和噪音告警的數量。會有這樣的假警報可能有如下原因:

AI太敏感的
重複（每天頻繁更新的計費檔案）
支出影響較小
由於季節性原因反覆出現
告警成本與分類時間的權衡
閥值的設定

異常的分類

允許評估緊急的程度

通知 — 報告或告警
建立紀錄 — 自動或手動
分類 — 閾值、重複項、BAU
推向第一線 — 採取行動或忽略
解決記錄 — 寫報告或註解
衡量 KPI 並公佈 — 由於該項行動我們省了多少錢

異常KPI的設定

異常告警可以協助我們追蹤潛在的浪費和服務行為的意外變化。

警報數量
與告警相關的支出
因異常已採取行動的次數
避免支出的$$（至最近的計費週期）
忽略的告警數量
被忽視的理由

參與角色(Personas)依據RACI模型有:

R — FinOpp Lead
A — 技術團隊
C — 技術與產品團隊
I — 財務部門與高階管理層

成功的衡量因素

Crawl階段

當開始理解非預期性支出時，實際帳單通常是原始來源。然而，由於異常發生後的幾天內(或是24小時之後)就會看到異常的計費項目，而使用這種方法可以快速回應採取行動，從而導致額外的浪費。

預算告警還可以幫助偵測異常浪費，但也可能會延遲，因為在發送通知之前必須滿足預期中的預算或實際預算閾值。

Walk階段

更好的方法是在本地啟用異常檢測，決定誰將負責分類，與團隊合作以獲得近乎即時的回應。我們還需要使用metadata來了解不同的支出部分。

在此階段，開始制定 KPI 並為其制定基準將幫助我們評估成功偵測、分類流程並了解趨勢。

Run階段

在此階段時，我們應該尋求建立具有自己的背景脈絡監控，以幫助自動化分類過程。並開始實施正式的事故管理流程(incident management process)。我們須從第一線的Pull機制轉向將此類異常管理推向第一線。

當組織建立肌肉記憶時，結合學到的經驗教訓和其他教育訓練材料將有助於防止重複出現異常警報。最後，從基線(baseline)轉向跨團隊、產品和業務部門的異常 KPI 基準(benchmarking)。

總結

異常是指與正常(或預期)成本支出的不同
異常管理能夠及時偵測、識別、澄清、告警和管理意外或不可預測的雲端成本事件，以最大程度地減少對業務、成本或其他方面的不利影響。
異常分類是以優先順序為驅動的作業方法，以便首先處理影響最大的警報。
通知忽略(Inform to Ignore)概念代表收集資訊以證明不採取行動的合理性