Google機器學習工程師認證指南

運用"雲端服務"加速企業的數位轉型願景

20 min readJan 17, 2025

此考試是要測試考生GCP上設計、建立與佈署機器學習(以下簡稱ML)服務，並且有能力完成以下課程目標。

如何使用 GCP 上的low code工具和服務開發和實施ML解決方案。
解釋如何有效管理資料、prototype模型以及如何在團隊內部和跨團隊協作來建立強大的ML解決方案。
透過選擇適當的框架、有效的模型訓練和適合的硬體，確保如何將 ML prototype 擴展到可投入生產的模型。
如何使用GCP上的各種服務策略(serving strategies)和基礎架構在生產環境中部署和擴展ML模型。
解釋如何”自動化和編排”end-to-end ML 流水線以簡化模型開發、部署和再度訓練。
確定監控、測試和故障排除 ML 解決方案的關鍵作業和注意事項，以確保效能、可靠性和負責任的 AI 實踐。

該認證有以下六個知識領域

架構low-code AI解決方案
在團隊內部和跨團隊協作來管理資料和模型。
將prototype延伸到ML模型。
服務和擴展模型。
自動化和編排 ML 流水線。
監控AI解決方案。

架構low-code AI解決方案

使用BQ ML開發ML模型

此部分討論BQ ML 解決真實業務問題的實際應用。要學習為不同的作業確定正確的BQ ML 模型，包括:

線性(linear)
二元分類(binary classification)
迴歸(regression)
時間序列分析(time series analysis)等

還有 BQ ML 中的特徵工程技術，以優化模型的準確性。還要學習如何透過分析 R-squared、 precision、recall與F1-score等關鍵指標來評估模型效能，並使用經過訓練的模型產生"批次和串流"預測。

聚焦內容

根據業務問題建立適當的 BQ ML 模型。例如線性和二元分類、迴歸、時間序列、factorization、boosted trees、自動編碼器(autoencoders)。
使用 BQ ML 進行特徵工程或選擇。
使用 BQ ML 產生預測(predictions)。

以上這些內容會在學習路線中習得

GCP的AI與ML介紹
使用BQ ML建立ML模型
使用 BQ ML 進行預測建模的工程資料
Lab: 為GCP上的 ML API 準備資料
特徵工程
Lab: 在 Vert ex AI 上建置和部署ML解決方案

使用 ML API 或基礎模型建立 AI 解決方案

使用GCP 上提供的預訓練模型和 API 建立 AI 支援的應用程式的實踐探索。如何為圖像分類和語言翻譯等作業選擇合適的 Model Garden API，然後將其整合到我們的應用程式中。它還涵蓋使用標準的 API 來執行文件處理和零售推薦等專門作業。再來是使用 Vertex AI Agent Builder 建立RAG(Retrieval Augmented Generation) 應用程式的經驗，以利用外部知識來源獲得更全面、更明智的 AI 解決方案。

聚焦內容

使用 Model Garden 中的 ML API（如 Cloud Vision API、Natural Language API、Cloud Speech API、Translation）建立應用程式。
使用標準的 API（例如 Document AI API、Retail API）建立應用程式。
利用預先建立的元件和最少的代碼來加快開發速度，或利用視覺化的no-code tools，而無需編寫任何代碼，從而使用 Vertex AI Agent Builder 實RAG 應用程式。

以上這些內容會在學習路線中習得

GCP的AI與ML介紹
Lab: 為 GCP上的 ML API 準備資料
Lab: 在 Vert ex AI 上建置和部署ML解決方案
在GCP上建立Gen AI 應用程式

使用AutoML訓練模型

這裡的重點在於準備資料以供 Vertex AI 中的 AutoML 使用。它描述如何組合各種資料類型（包括表格、文字、圖像和影片）以實現最佳模型訓練。這裡還涵蓋 Vertex AI 中的資料管理技術、使用 Dataflow 和 BQ 等工具的預處理步驟以及特徵儲存(feature store)的建立。此外，還解釋了 AutoML 中特徵選擇和資料標記(feature selection and data labeling)的關鍵作用，並透過檢查隱私影響以及如何處理敏感資料來建立負責任的 AI 實踐。

聚焦內容

為 AutoML 準備資料（例如，AutoML 上的特徵選擇、資料標籤、表格工作流程）。
使用可用資料（例如表格、文字、語音、圖像、視訊）來訓練自訂模型。
使用 AutoML 處理表格資料。
使用 AutoML 建立預測模型(forecasting models)。
配置和debugging經過訓練的模型。

以上這些內容會在學習路線中習得

GCP的AI與ML介紹
在 Vertex AI 中使用Notebooks

在團隊內部和跨團隊協作來管理資料和模型

"探索和預處理"組織的整體性資料

這部分是GCP上的ML作業準備和管理資料的關鍵步驟。它描述如何考慮成本和存取模式等因素，為不同的資料類型和容量選擇最合適的儲存服務。探討使用 Dataflow、TFX 和 BigQuery 等工具的資料預處理技術，涵蓋資料清理、轉換和特徵工程等基本步驟。最後，強調資料隱私和安全的重要性，特別是在處理敏感資訊時，強調負責任的AI實踐。它還解釋了有助於確保遵守隱私法規的匿名技術和 GCP 工具(如Cloud Storage, BigQuery, Spanner, Cloud SQL, Apache Spark, Apache Hadoop)。

聚焦內容

管理不同類型的資料（例如表格、文字、語音、圖像、視訊）以進行具有效能(efficient)訓練。
在 Vertex AI 中管理資料集(datasets)。
資料預處理（如 Dataflow、TFX [TensorFlow Extended]、BQ）。
在 Vertex AI Feature Store 中建立和整合特徵。
資料使用和(或)收集的隱私影響（例如，處理個人識別資訊 [PII] 和受保護的健康資訊 [PHI] 等敏感資料）。
將不同的資料來源（例如文字文件）導入 Vertex AI 中進行推論。

以上這些內容會在學習路線中習得

GCP的AI與ML介紹
在 Vertex AI 中使用Notebooks
使用 BQ ML 進行預測建模的工程資料
使用 Vertex AI 進行MLOps：特徵管理

使用Jupyter notebooks進行模型原型設計

這裡探討如何在 GCP 中設定和管理ML的開發環境。它解釋了不同的 Jupyter backend選項，例如 Vertex AI Workbench 和 Dataproc，並描述如何選擇最適合我們需求的選項。它涵蓋了 Vertex AI Workbench 和 Colab Enterprise 中的基本安全最佳實踐，以確保資料和代碼受到保護。並描述了使用 Spark kernels進行大規模資料處理的優勢，以及如何將notebooks與 Git 等代碼儲存庫整合以實現高效的版本控制和協作。

聚焦內容

在 GCP上選擇適當的 Jupyter backend（例如 Vertex AI Workbench、Dataproc 上的notebooks）。
在 Vertex AI Workbench 和 Colab Enterprise 中套用最佳安全實踐。
使用 Spark kernel。
與代碼來源儲存庫整合。
使用通用框架（例如 TensorFlow、PyTorch、Scikit-learn、Spark、JAX）在 Vertex AI Workbench 中開發模型。
利用 Model Garden 中的各種基礎模型和開源模型。

以上這些內容會在學習路線中習得

在 Vertex AI 中使用notebooks

追蹤與運作ML實驗(experiments)

這裡介紹ML模型的建構和評估，特別強調Gen AI。它解釋了如何選擇最適合組織的開發和實驗需求的GCP環境，從 Vertex AI Experiments、Kubeflow Pipelines 和 Vertex AI TensorBoard 等選項中進行選擇。深入研究評估Gen AI解決方案的細微差別，考慮了準確性、創造力、偏見和道德影響等因素。提供將 Vertex AI TensorBoard 與 TensorFlow 和 PyTorch 等流行框架整合的實踐經驗，使我們能夠有效地可視化和分析模型效能，識別潛在的瓶頸，並優化模型以獲得更好的結果。

聚焦內容

根據框架選擇合適的 GCP 環境進行開發和實驗（例如 Vertex AI Experiments、Kubeflow Pipelines、Vertex AI TensorBoard with TensorFlow 和 PyTorch）。
評估Gen AI解決方案

以上這些內容會在學習路線中習得

Lab: 在 Vertex AI 上建置和部署ML解決方案
使用 Vertex AI 進行MLOps：模型評估

將prototypes延伸到ML模型中

構建模型

這裡深入探討選擇正確的工具和技術來建立可解釋的ML模型的關鍵考量因素。它解釋如何考量模型的開發、訓練和部署等因素，為組織的專案選擇最合適的 ML 框架。它還探討了各種建模技術，並討論了可解釋性要求如何影響組織的選擇，強調了模型複雜性和可解釋性之間的權衡。

聚焦內容

選擇ML架構與模型架構
給出可解釋性要求的建模技術

以上這些內容會在學習路線中習得

生產環境的ML系統

模型的訓練

這是一個在GCP 上訓練ML模型的綜合指南。它解釋如何管理和擷取各種資料類型進行訓練，利用不同的 SDK（例如 Vertex AI 和 Kubeflow）以及為可靠的流水線實行分散式訓練。它涵蓋了訓練過程的關鍵面向，包括超參數(hyperpartameters)調整和常見訓練故障排除。最後，這探索了使用 Vertex AI 微調 Model Garden 基礎模型的技術，使我們能夠利用預訓練的模型來滿足特定需求。

聚焦內容

在 GCP（如 Cloud Storage、BQ）上組織訓練資料（例如表格、文字、語音、圖像、影片）。
將各種文件類型（例如 CSV、JSON、圖像、Hadoop、資料庫）導入訓練中。
使用不同的 SDK 進行訓練（例如，Vertex AI 自訂訓練、GKE上的 Kubeflow、AutoML、tabular workflows）。
使用分散式訓練來組織可靠的流水線。
超參數調整。
排除ML 模型的訓練失敗。
微調基礎模型（例如 Vertex AI、Model Garden）。

以上這些內容會在學習路線中習得

GCP的AI與ML介紹
LLM介紹
Gen AI的MLOps
生產環境的ML系統
在Vertex AI上構建與佈署ML解決方案

針對訓練選擇適合的硬體

這裡介紹透過策略性"硬體和基礎設施選擇"來優化模型訓練過程。它介紹了 GCP上提供的各種運算和加速選項，包括 CPU、GPU、TPU 和邊緣設備，以及如何選擇最適合模型需求的選項。它深入研究了使用 TPU 和 GPU 的分散式訓練技術，探索了 Vertex AI 和 Horovod 上的 Reduction Server 等工具。還提供 GPU 和 TPU 的比較分析，幫助我們了解它們的利與弊，並根據我們的模型架構、運算需求和預算限制做出決策。

聚焦內容

評估運算和加速器選項（例如 CPU、GPU、TPU、邊緣設備）。
使用 TPU 和 GPU 進行分散式訓練（例如 Vertex AI、Horovod 上的 Reduction Server）。

以上這些內容會在學習路線中習得

生產環境的ML系統

服務與擴展模型

服務模型(Serving models)

探討部署和管理ML推論模型的過程。它解釋了批次和串流推論方法，比較了它們的優缺點，以及如何根據需求選擇正確的GCP 服務，包括 Vertex AI、Dataflow、BigQuery ML 和 Dataproc。它檢查了選擇低延遲預測硬體時要考量的因素，並探索了使用不同框架（如 PyTorch 和 XGBoost）建立的服務模型的選項。最後介紹在模型登錄(model registry)中組織模型以進行版控和簡化部署管理(deployment management)的重要性。

聚焦內容

批次和串流推論（例如，Vertex AI、Dataflow、BQ ML、Dataproc）。
使用不同的框架（例如 PyTorch、XGBoost）來服務模型。
管理模型註冊表。
A/B 測試模型的不同版本。

以上這些內容會在學習路線中習得

特徵工程
生產環境的ML系統
在Vertex AI上構建與佈署ML解決方案

擴展串流模型服務

深入探討優化已部署的ML模型的效能和可擴展性。如何在串流預測請求期間利用 Vertex AI Feature Store 進行高效的特徵存取，以及如何在public endpoints和private endpoint之間進行選擇以實現安全模型服務。探討擴展服務後端以處理增加的流量的策略，包括 Vertex AI Prediction 和容器化服務。還介紹了選擇適當的服務硬體，考慮模型複雜性和延遲要求等因素。最後，涵蓋調整模型以優化生產環境中效能的技術，重點關注簡化、減少延遲和記憶體優化等方面。

聚焦內容

Vertex AI Feature Store
Vert ex AI public and private endpoints
選擇適當的硬體（例如 CPU、GPU、TPU、邊緣）。
根據throught擴展服務後端（例如，Vertex AI Prediction、容器化服務）。
調整 ML 模型以在生產環境中進行訓練和服務（例如，簡化技術、優化 ML 解決方案以提高效能、延遲、記憶體、through）。

以上這些內容會在學習路線中習得

特徵工程
Vertex AI的MLOps : 特徵管理
Lab: 生產環境的ML系統
Lab: 使用BQ ML建立ML模型

自動化與編排ML流水線

開發端到端ML流水線

探討在GCP上建立和管理ML流水線。資料和模型驗證(model validation)在確保可靠的ML解決方案方面的關鍵作用，以及如何在訓練和服務階段之間保持一致的資料預處理。深入研究 Kubefl ow Pipelines、Vertex AI Pipelines 和 Cloud Composer 等不同的編排框架，比較了它們的優缺點。也探討了 ML 流水線的混合和多雲策略的優勢和挑戰，提供了在不同環境中建置和部署 ML 解決方案的全面視圖。

聚焦內容

資料和模型驗證。
確保訓練和服務之間資料預處理的一致性。
在 GCP上託管第三方流水線（例如 MLFlow）。
識別元件、參數、觸發器(trigger)和運算需求（例如，Cloud Build、Cloud Run）。
編排框架（例如 Kubeflow Pipelines、Vertex AI Pipelines、Cloud Composer）。
混合或多雲策略。
使用 TFX 元件或 Kubeflow DSL（例如 Dataflow）進行系統設計。

以上這些內容會在學習路線中習得

GCP的AI與ML介紹
MLOps的介紹
生產環境的ML系統
在Vertex AI上構建與佈署ML解決方案

自動化的模型再訓練

再訓練ML模型的關鍵流程的自動化，以隨著時間的推移保持其準確性和有效性。如何建立強有力的再訓練政策，考慮影響再訓練頻率和觸發因素的因素。自動化模型部署實施持續整合和持續交付 (CI/CD) 流水線的優勢，確保建置、測試和部署更新模型的簡化工作流程。讓我們的ML模型透過自動化在動態環境中保持最佳效能。

聚焦內容

決定適當的再訓練政策。
CI/CD佈署模型(如Cloud Build, Jenkins)

以上這些內容會在學習路線中習得

Vertex AI的MLOps : 特徵管理
GCP中的ML流水線

追蹤與稽核Metadata

ML流水線中的追蹤和稽核metadata，以提高透明度和可重複性(transparency and reproducibility)。如何使用 Vertex AI Experiments 和 Vertex ML Metadata 等工具來追蹤和比較模型工件和版本。實現模型和資料集版控、確保可重複性和變更追蹤的技術。模型和data lineage的概念，強調其在理解和稽核ML流水線以及如何使用GCP 工具有效追蹤lineage的重要性。

聚焦內容

追蹤和比較模型工件和版本（例如，Vertex AI Experiments、Vertex ML Metadata）。
連接模型和資料集版控。
Model and data lineage

以上這些內容會在學習路線中習得

MLOps的介紹
Vertex AI的MLOps : 特徵管理

ML監控的解決方案

識別和減輕與ML解決方案相關的潛在風險。它涵蓋了安全風險，包括無意識的資料利用和駭客攻擊，以及如何透過存取控制、加密和模型強化來解決這些風險。 Google 負責任的 AI 實踐，強調 ML 開發中的公平、隱私、透明度和問責制。識別和減緩"資料、演算法和評估"中的偏差，以及如何評估 ML 解決方案的整體生產準備。模型的可解釋性以及如何利用 Vertex AI 可解釋的 AI 來深入了解模型預測並識別潛在的偏差或錯誤。

聚焦內容

建構安全的ML系統（如防止資料或模型的無意識利用、駭客攻擊）。
與 Google 負責任的 AI 實踐（例如偏見）保持一致。
評估 ML 解決方案的準備（例如資料偏差、公平性）。
Vertex AI 上的模型可解釋性（例如 Vertex AI Prediction）。

以上這些內容會在學習路線中習得

對開發者負責的AI：隱私和安全
對開發者負責任的AI：公平與偏見
對開發人員負責的AI：可解釋性和透明度
生產環境的ML系統

ML解決方案的監控、測試與故障排除

已部署的ML解決方案的監控、測試和故障排除，以確保持續的效能和可靠性。使用 Vertex AI 模型監控和可解釋 AI 等工具建立持續評估指標，以追蹤模型效能並識別潛在問題。訓練服務偏差和特徵歸因漂移(training-serving skew and feature attribution drift)等概念，並了解其原因和緩解策略。根據基線和更簡單的模型以及隨著時間的推移監控模型效能，以偵測效能下降或過度擬合。常見的訓練和服務錯誤，以及如何使用日誌分析和debugging工具等各種技術有效地解決這些問題。

聚焦內容

建立持續評估指標（例如，Vertex AI 模型監控、可解釋的 AI）。
監控訓練服務偏差(training-serving skew)。
監控特徵屬性漂移(feature attribution drift)。
根據基線(baseline)、更簡單的模型以及跨時間維度監控模型效能。
常見的訓練和服務錯誤。

以上這些內容會在學習路線中習得

Lab: 在Vertex AI上構建與佈署ML解決方案
生產環境的ML系統
GCP上的TensorFlow

學習路線

1.GCP的AI與ML介紹

Module 1: GCP的AI基礎
Module 2: GCP的AI開發
Module 3: ML工作流程與Vertex AI
Module 4: GCP的Gen AI

2. Lab 實作:為 GCP上的 ML API 準備資料

Lab 1: Vert ex AI: Qwik Start
Lab 2: Dataprep: Qwik Start
Lab 3: Dataflow: Qwik Start — Templates
Lab 4: Dataflow: Qwik Start — Python
Lab 5: Dataproc: Qwik Start — Console
Lab 6: Dataproc: Qwik Start — Command Line
Lab 7: Cloud Natural Language API: Qwik Start
Lab 8: Speech-to-Text API: Qwik Start
Lab 9: Video Intelligence: Qwik Start
Lab 10: Prepare Data for ML APIs on Google Cloud: Challenge Lab

3. 在Vertes AI使用Notebooks

最少觀看8個課程

4. 實作: 使用BQ(BigQuery) ML建立ML模型

Lab 1: Getting Started with BigQuery ML
Lab 2: Predict Visitor Purchases with a Classification Model in BigQuery ML
Lab 3: Predict Taxi Fare with a BigQuery ML Forecasting Model
Lab 4: Bracketology with Google Machine Learning
Lab 5: Create ML Models with BigQuery ML: Challenge Lab

5. 實作:使用 BQ ML 進行預測建模的工程資料

Lab 1: Creating a Data Transformation Pipeline with Cloud Dataprep
Lab 2: ETL Processing on Google Cloud Using Dataflow and BigQuery (Python)
Lab 3: Predict Visitor Purchases with a Classification Model in BigQuery ML
Lab 4: Engineer Data for Predictive Modeling with BigQuery ML: Challenge Lab

6. 特徵工程(Feature Engineering)

Module 1: Vertex AI feature store簡介
Module 2: 從Raw data到特徵
Module 3: 特徵工程
Module 4: 預處理與特徵建立
Module 5: 特徵交叉：TensorFlow Playground
Module 6: TensorFlow Transform簡介

7. GCP的TensorFlow

Module 1: TensorFlow生態系簡介
Module 2: 設計與建立一個輸入的資料流水線
Module 3: 使用 TensorFlow 和 Keras API 建立神經網路
Module 4: 使用 Vertex AI 進行大規模訓練

8. ML系統的生產環境

Module 1: 架構生產環境的ML系統
Module 2: 設計適應性強的ML系統
Module 3: 設計高效能的ML系統
Module 4: 混合式ML系統
Module 5: ML生產系統的故障排除

9. MLOps介紹

Module 1: 使用MLOps
Module 2: Vertex AI 與MLOps

10.MLOps與Vertex AI:特徵管理

Module 1: Vert ex AI Feature Store簡介
Module 2: 深入觀察

11.Gen AI介紹

最少觀看一個課程

12. LLM介紹

最少觀看一個課程

13. Gen AI的MLOps

最少觀看5個課程

14. MLOps與Vertex AI: 模型評估(Model Evaluation)

Module 1: 模型評估介紹
Module 2: Gen AI的模型評估

15. GCP的ML流水線

Module 1: TFX流水線介紹
Module 2: 使用 TFX 進行流水線編排
Module 3: TFX流水線的自訂組件與CI/CD
Module 4: 使用 TFX 的 ML Metadata
Module 5: 使用多個 SDK、KubeFlow 和 AI 平台流水線進行持續訓練
Module 6: 使用 Cloud Composer進行持續訓練
Module 7: 帶有 MLflow 的 ML流水線

16. 實作: 在 Vertex AI 上建置和部署ML解決方案

Lab 1: Vertex AI: Qwik Start
Lab 2: Identify Damaged Car Parts with Vertex AutoML Vision
Lab 3: Deploy a BigQuery ML Customer Churn Classifier to Vertex AI for Online Predictions
Lab 4: Vertex Pipelines: Qwik Start
Lab 5: Build and Deploy Machine Learning Solutions with Vert ex AI: Challenge Lab

17. 在GCP上建立Gen AI Applications

Module 1: Gen AI Applications
Module 2: Prompts
Module 3: Retrieval Augmented Generation (RAG)

18. 對開發者負責任的AI：公平與偏見

Module 1: AI的可解釋性和透明度
Module 2: 雲端基礎設施現代化

19. 對開發者負責任的AI: 隱私和安全

Module 1: AI隱私
Module 2: AI安全

Google機器學習工程師認證指南

架構low-code AI解決方案

使用BQ ML開發ML模型

使用 ML API 或基礎模型建立 AI 解決方案

使用AutoML訓練模型

在團隊內部和跨團隊協作來管理資料和模型

"探索和預處理"組織的整體性資料

使用Jupyter notebooks進行模型原型設計

追蹤與運作ML實驗(experiments)

將prototypes延伸到ML模型中

構建模型

模型的訓練

針對訓練選擇適合的硬體

服務與擴展模型

服務模型(Serving models)

擴展串流模型服務

自動化與編排ML流水線

開發端到端ML流水線

自動化的模型再訓練

追蹤與稽核Metadata

ML監控的解決方案

ML解決方案的監控、測試與故障排除

學習路線

1.GCP的AI與ML介紹

2. Lab 實作:為 GCP上的 ML API 準備資料

3. 在Vertes AI使用Notebooks

4. 實作: 使用BQ(BigQuery) ML建立ML模型

5. 實作:使用 BQ ML 進行預測建模的工程資料

6. 特徵工程(Feature Engineering)

7. GCP的TensorFlow

8. ML系統的生產環境

9. MLOps介紹

10.MLOps與Vertex AI:特徵管理

11.Gen AI介紹

12. LLM介紹

13. Gen AI的MLOps

14. MLOps與Vertex AI: 模型評估(Model Evaluation)

15. GCP的ML流水線

16. 實作: 在 Vertex AI 上建置和部署ML解決方案

17. 在GCP上建立Gen AI Applications

18. 對開發者負責任的AI：公平與偏見

19. 對開發者負責任的AI: 隱私和安全

Written by 運用"雲端服務"加速企業的數位轉型願景

No responses yet