AWS的機器學習 — 從業務角度理解ML
本文中我們將會學到機器學習(以下簡稱ML)的作業階段,是從相關的利害關係人的角度開始。如果我們ML的技術人員或是靠這一個吃飯的,哪為了讓企業或組織獲取最大的價值,我們需要回到企業業務面的角度來看。這會讓我們很清楚設定我們ML模型應該要有一個甚麼樣的"目標與標準",確認我們的ML預算(就是老闆的錢),並根據組織(或老闆)期望的成果來衡量是否成功。
針對該成果告訴我們是ML的產出是成功或失敗將有助於確定下一步驟,例如繼續投資(繼續要錢)於不同業務面的 ML專案,還是我們是需要有更多的資料來獲取一個想要的成果,亦或是這個測試中的專案就從來不適合用ML。
機器學習的作業階段
讓我們看一下一般ML作業階段。我們會常常聽到ML是一項複雜且需要反覆不斷試驗並且要有不同技能的人員加入。研究確實表明(在撰寫本文時),大多數 ML 專案最終並沒有實際用到組織的業務流程中。
通常會為會發生此種狀況有著下列原因:
- 業務因素
如市場因素(景氣下行)導致組織調整了業務的優先順序。 - 人員因素
例如ML專案的領導者頻繁的異動或缺乏資料科學家或工程師人才。(馬雲說的,員工會離職,要嘛給的不夠要嘛心理受委曲了。學術一點就說企業沒有把人才的馬斯洛心理需求層次給滿足) - 流程因素
例如嚴重不理解ML流程或不懂如何把組織內的業務流程與ML結合起來
CRISP-DM(Cross Industry Standard Process for Data Mining)可以被用來理解不同階段ML 流程的基線(baseline)。CRISP-DM是一個無關用哪一種程式的一般性指南。這個流程如下圖所示:(更多的資訊讀者可行拜Google大神)
每個ML專案都是來自於我們有業務問題需要解決。來自業務面的利害關係人與ML團隊需要緊密合作然後ML團隊可以畫出一個框架來對應我們的ML。這個工作完成後,我們需要有來源資料並對其進行品質(QC-Quality Control)評估與分析結果。之後我們也許需要對其進行資料探勘與視覺化。探勘後,我們將了解資料中的特徵(feature)以及如何使用它們進行預測。 通常需要設計新的特徵或對現有特徵進行轉換(這稱為feature engineer)。
完成了特徵工程,我們就可以開始訓練模型。然後,我們可以根據一開始設定的業務目標來驗證模型。 如果模型滿足需求,我們可以將模型放到組織的業務中運作。 如果不是,那麼我們必須回去收集更多資料或進一步資料探勘,以確定模型無法預測的原因。 我們可能還需要調整模型參數以提高模型效能。 在本文中,我們將從識別哪一類的業務問題適合用ML開始。 在後續文章中,我們將學習如何將業務問題轉換為 ML 問題解決框架,以便我們實施這個解決方案。
業務問題的識別
ML 生命週期的第一步是建立業務問題。 這通常也是最重要的一步,因為它需要高階管理人員(C-Suite)的認同並承諾這些組織內的人員應該開始的 ML 專案。 由於 ML 專案是需要大量資源的,因此會有成本,我們的業務的利害關係人需要願意進行投資(這時看誰的pitch功力比較高)。
一旦我們從高階管理人員獲得承諾(記得一定要簽名畫押),ML 和業務的利害關係人應該聚在一起確定業務問題以及目標和結果。 重要的是要記住,"不是所有業務問題都是ML問題"。 如果我們作為 ML專案的領導者,不僅要對 ML 有足夠深入的了解,還希望對組織的核心業務有足夠深入的理解(意思是你需跨領域),以便能夠確定哪些問題最適合作為 ML 問題,哪些不適合。
以下問題是當我們要確認使用那些ML方法中經常需要詢問業務的利害關係人以解決他們的業務問題:
- 您將不會採用新方法的關鍵業務需求是什麼?
- 你今天如何解決這個問題?
- 您如何從業務角度衡量成功? 例如,您是否正在嘗試減少整體時間或工時、降低成本、增加收入或識別新客戶?
- 您今天有什麼樣的資料?
- 如果您沒有足夠的資料,那麼在什麼時間範圍內獲取額外資料的成本是多少?
- 誰是此應用程式的最終用戶,他們想要的體驗是什麼?
- 企業是否擁有交付專案所需的技術資源,或者他們是否需要聘請外部資源來執行此專案? 他們是否考慮了資源成本?
如果我們的組織對ML是新手,哪麼上述的詢問將有助於我們可以快速取得成果,並向公司的高階管理人員展示成果。 交付的成果和贏得高階管理人員的信任可以讓我們對 ML專案再繼續往下投入資源。
一旦這些問題得到滿意的回答,ML 團隊就可以確定解決問題的 ML 方法並將業務目標轉換為 ML 問題。 在“AWS的定義機器學習問題”中有詳細介紹這一點。
案例: 優化從A點到B點的路徑
讓我們舉實際的例子。 假設我們是航空公司或是Uber這一類的公司,並且我們的業務利害關係人來找我們詢問如何使用 ML 找到A點到B點的最佳路徑。 這不是 ML 問題,而是優化問題。 如果問題要求我們根據歷史資料預測時程延誤,這才是 ML 問題。
總結
我們介紹了 ML 工作流程中的第一個也是最重要的步驟 — — 識別業務問題。 我們描述了 ML 生命週期各個階段的 CRISP-DM 方法,並舉了一個例子,以便在將範例限定為 ML 問題時詢問我們的業務利害關係人。