企業的數位轉型 — Part 6-AI的重生

我們在其他文章討論過的雲端運算大數據分別代表了使數位轉型成為可能的基礎設施和原始材料。 在本文和之後中,我們現在利用這兩項: 雲端運算和大數據來推動變革的主要技術 — — 人工智慧和物聯網。 借助人工智慧和物聯網,組織可以釋放巨大的價值,重塑他們的營運方式,並創造新的商業模式和收入金流。

近年來,人工智慧的進步顯著加快。 事實上,人工智慧已經有非常大的進步,以至於很難誇大其在幾乎每個產業的業務流程中推動逐步功能改進的潛力。

雖然潛在的效益是巨大的,但人工智慧無疑是一個深刻而複雜的主題,大多數組織都需要技術合作夥伴的服務.例如雲端業者(AWS, Azure與GCP),這些業者可以幫助他們開始並在AI的路上前進。憑藉適當的技術基礎和專家指導,今天進行投資以利用 AI 力量的組織將為自己的短期和長期競爭優勢做好準備。相反,那些未能抓住這個機會的人則將自己置於嚴重的劣勢。

在本文中,我們將概述人工智慧,它與組織幾十年來一直依賴的傳統電腦科學有何不同,以及它如何在一系列use cases中得到應用並取得令人矚目的成果。為了更好地理解為什麼今天對人工智慧的興趣和投資如此增長。了解一下它的歷史是很有用的。我們將談到一些亮點,從 1950 年代的起源到近年來使人工智慧成為每個組織絕對必要的進步。我們還將描述 AI 呈現的重大挑戰以及組織如何克服這些挑戰。

電腦科學的新範例

基於邏輯的演算法代表了傳統電腦科學的核心。 幾十年來,電腦科學家被訓練將演算法視為一系列邏輯步驟或過程,這些步驟或過程可以轉化為機器理解的指令並有效地用於解決問題。 傳統的演算法思維非常強大,可用於解決許多領域的大量電腦科學問題 — — 包括數據管理、網路、搜尋等。

在過去的 50 年中,基於邏輯的演算法在業務的各個層面 — — 從 ERP 到供應鏈、製造、銷售、營銷、客戶服務 — — 都帶來了變革性的價值。 它們還改變了個人交流、工作,購買商品以及獲取訊息和娛樂的方式。 例如,我們用於線上購物的應用程式採用多種演算法來執行其各種任務。 當我們通過輸入字詞搜尋特定產品時,應用程式會運行演算法來尋找與該字詞相關的產品。 演算法用於計算相關稅目、為我們提供運輸選項、處理我們的付款並向我門發送收據。

傳統的基於邏輯的演算法有效地處理了一系列不同的問題和工作,但它們在解決許多通常由人類完成的任務方面並不有效。 考慮一項基本的人類工作,例如識別貓的圖片。 編寫一個傳統的應用程式來正確地做到這一點需要開發一種方法來編碼和參數化貓的所有變數 — — 所有不同的大小、品種、顏色以及它們在圖片內中的方向和位置。 雖然這樣的程序非常複雜,但一個兩歲的小孩子可以毫不費力地認出貓的形象。 一個兩歲的孩子可以識別貓以外的許多物體。

同樣,人類的許多簡單工作— — 例如說話、閱讀或寫訊息、識別照片中的人或理解其他人的說話 — — 對於傳統的基於邏輯的演算法來說都非常困難。多年來,這些問題一直困擾著機器人、自動駕駛汽車和醫學等領域。

人工智慧演算法採用與傳統基於邏輯的演算法不同的方式。許多人工智慧演算法是基於這樣的想法,,設計程式直接從資料中學習而不是編寫程式來執行任務,這個程式使用通過觀察大量不同貓圖片得出的人工智慧演算法來學習識別貓。本質上,這個演算法通過分析此類圖片的許多範例來推斷貓的圖像是什麼,就像人類學習的那樣。

如我們在數位轉型的其他文章所述,我們現在擁有處理超大型資料集(大數據)中的所有資料技術和計算能力,以這些基本後進而訓練人工智慧演算法來分析這些資料。因此,只要有可能在其營運中擷取足夠大的資料集,組織就可以使用 AI 來轉變業務流程和客戶體驗 — — 從而使 AI 驅動的數位轉型時代成為可能。

正如商業互聯網的出現在 1990 年代和 2000 年代徹底改變了商業模式一樣,無處不在的人工智慧將在未來幾十年同樣改變商業模式。 AI 已經在很多方面影響並塑造了我們今天的生活,而我們仍處於過渡的初期。Google是最早大規模採用人工智慧的公司之一,它使用人工智慧為其業務的各個方面提供動力。人工智慧已經為Google業務的核心提供動力:搜尋。任何 Google 搜尋查詢的結果都由極其複雜的 AI演算法提供,該演算法由龐大的資料科學家和工程師團隊不斷維護和完善。廣告是Google的核心收入來源,全靠人工智慧支援的演算法來驅動 — — 包括廣告展示位置、定價和定位。

Google Assistant使用人工智慧和自然語言處理 (NLP) 向消費者提供基於語音的複雜交談和系統控制。Google的母公司 Alphabet 有一個名為 Waymo 的自動駕駛汽車部門,該部門已經有汽車上路了。 Waymo 的核心技術 — — 其自動駕駛演算法 — — 由人工智慧提供支援。

其他面向消費者的公司也有類似的產品。 Netflix 使用AI 支援電影推薦。亞馬遜使用人工智慧在其電商平台上提供產品推薦、管理定價和提供促銷活動。從美國銀行到 賣pizza的眾多公司在包括客戶服務和電子商務在內的各種use case中都使用人工智慧驅動的“聊天機器人”。

雖然Google、Netflix 和亞馬遜已經在面向消費者的應用程式中採用人工智慧,但幾乎所有類型的組織 — — 企業對消費者、企業對企業和政府 — — 都將很快在其營運中使用人工智慧。經濟效益將是顯著的。麥肯錫估計,人工智慧將在 2030 年使全球 GDP 增加約 12 萬億美元,而 2017 年普華永道的研究表明這一數字為 15.7 萬億美元 — — 全球 GDP 增長了 14%。

AI其實不是新的Idea

要了解為什麼今天人們對人工智慧的興趣如此之高,需要回顧一下它的一些歷史。 AI本身就很迷人。 人工智慧的發展是一個有益的教訓,一些關鍵的創新可以將技術推向主流。

人工智慧領域現在是新的。 “會思考機器”的最早概念出現在 1950 年代。 尤其是英國電腦科學家和數學家-艾倫·圖靈的論文推測機器會思考的可能性。 他提出“圖靈測試”來建立思考的定義。 為了通過圖靈測試,電腦必須表現出與人類無法區分的行為。

“人工智慧”一詞可以追溯到 1955 年,當時年輕的達特茅斯數學教授約翰·麥卡錫創造了這個詞,作為描述新興領域的中立方式。 麥卡錫和其他人在 1956 年提出了一個夏季研討會:

我們建議在 1956 年夏天在新罕布什爾州漢諾威的達特茅斯學院進行為期 2 個月、10 個人的人工智慧研究。
這項研究是基於這樣一種猜想進行的,即學習的每個層面或智慧的各式特徵都可以在原理上如此精確地描述,以至於可以製造機器來模擬它。
將嘗試從抽象和概念中尋找如何使機器使用語言,解決現在為人類留存的各種問題,並改進自己。 我們認為,如果精心挑選的一組科學家在一個夏天共同研究這些問題,那麼可以在其中一個或多個問題上取得重大進展。

該研討會在很大程度上被認為是創建人工智慧作為一個研究領域。 隨後大學主導的AI專案迅速爆發:麻省理工學院於 1963 年在 DARPA 的資助下啟動了 MAC(數學與計算)專案。柏克萊的 Project Genie 於 1964 年啟動。斯坦福大學於 1963 年啟動了人工智慧實驗室。南加州大學成立了在1972年成立了資訊科學學院。

麻省理工學院的馬文·明斯基(Marvin Minsky)的工作使人們對該領域的興趣迅速增長,他建立了麻省理工學院計算機科學和人工智慧實驗室。 麻省理工學院的 Minsky 和 John McCarthy、康奈爾大學的 Frank Rosenblatt、卡內基梅隆大學的 Alan Newell 和 Herbert Simon 以及耶魯大學的 Roger Schank 都是早期的 AI 從業者。

基於一些早期的工作,“AI buzz”在 1960 年代和 70 年代點燃了世界。 戲劇性的預測充斥著流行文化。 很快機器就會和人類一樣聰明或更聰明。 他們將接管目前由人類執行的任務; 甚至最終超越人類智慧。 不用說,這些可怕的預測在哪個年代都沒有實現。

人工智慧從業者的早期努力基本上沒有成功,機器無法為人類執行最簡單的工作。從業者面臨的一個關鍵障礙是足夠的電腦計算能力。在 1960 年代、到80 年代期間,計算能力發展得相當迅速。但是機器仍然不夠強大,無法解決許多現實世界的問題。在這幾十年裡,電腦的功能不斷增長,體積卻在縮小,從整個足球場的大小發展到大型電腦、小型電腦和個人電腦。

1954 年首批商用 IBM 計算機之一,IBM 650,當時售價 500,000 美元,具有 2,000 個 10-digit 的記憶體,2017 年,售價 999 美元,配備 64 位 A11 芯片和 3 GB 記憶體,到能夠裝在你的口袋裡。這種效能的顯著提升就是有力的證明。摩爾定律在起作用。今天隨處可見的商用電腦比明斯基和他的同事可用的機器強大 1000 倍。

計算能力不足只是早期人工智慧從業者面臨的限制之一。 第二個核心問題是基礎數學概念和技術沒有得到很好的發展。 1960 年代人工智慧的一些早期工作集中在神經網路等高階演算法技術上。 但這些想法並沒有取得很大進展。 例如,Minsky 和 Seymour Papert 於 1969 年合著了《感知器》一書。如今,這本書被一些人認為是人工神經網路領域的基礎著作 — — 現在是一種廣泛使用的人工智慧演算法技術。 然而,當時的其他從業者將這本書解釋為概述了這些技術的主要限制。 在 1970 年代,人工智慧研究的方向轉向更多地關注符號推理和系統 — — 這些想法在釋放經濟價值方面被證明是不成功的。

AI的寒冬

到 1970 年代中期,許多資助機構開始對支持人工智慧研究失去興趣。 過去十年的人工智慧研究工作取得了一些重大的理論進步 — — 包括訓練神經網路的反向傳播(Propagation)。 但是除了一些基本的例子之外,幾乎沒有什麼切實的應用。 人工智慧研究人員承諾的領域,例如理解語音或自動駕駛汽車,並沒有顯著進步。 諸如英國政府委託的 Lighthill 報告的回報對人工智慧也持批評態度。

繼 1960 年代和 1970 年代初期人工智慧研究和活動的最初爆發之後。 對人工智慧的興趣開始減少。 電腦科學從業者開始專注於其他更有價值的工作領域,人工智慧進入了一個長的時間,通常被稱為“第一個人工智慧寒冬”

人工智慧在 1980 年代短暫復甦,大部分工作都集中在通過為機器提供規則來幫助機器變得更智能。 這個想法是,只要有足夠的規則,機器就能夠執行特定的有用作業 — — 並表現出一種新興智慧。 “專家系統”的概念不斷發展,像 LISP 這樣的語言被用來更有效地編碼邏輯。 專家系統背後的想法是,可以通過基於一組啟發式規則的電腦程序對不同領域的領域輸出的知識和理解進行編碼。

該概念承諾電腦可以像職業專家(最好的醫生、消防員、律師等)學習,將他們的知識編碼到專家系統中,然後提供給更廣泛的從業者,這樣他們就可從他們最好的同行智慧中受益。

這些系統取得了一些初步的商業成功和工業應用。然而,最終,沒有一個專家系統是有效的,而且承諾似乎遠遠領先於技術現實。專家系統是基於一組明確定義的規則或邏輯構建構的 — — 而不是一個可以適應不斷變化資料的真正學習系統。知識獲取成本很高,因為這些系統必須從領域專家那裡獲取資訊。而且它們的維護成本也很高,因為規則必須隨著時間的推移而修改。機器不容易學習和無法適應不斷變化的情況。到 1980 年代後期,人工智慧已經進入了第二個寒冬。

AI重生

在三股力量的推動下,人工智慧領域在 2000 年重新煥發生機。首先是摩爾定律的作用 — — 計算能力的快速提高。到 2000 年代,電腦科學家利用雲端計算處理能力的顯著提高、電腦外形尺寸的減小(大型計算機、小型計算機、個人計算機、筆記本電腦和移動設備的出現)以及計算成本的穩步下降。

其次,互聯網的發展導致可快速用於分析的資料量大幅增加。互聯網公司Google、Netflix 和亞馬遜可以有數百萬到數十億消費者的資料 — — 他們的搜索查詢、點擊、購買和娛樂偏好。這些公司需要先進的技術來處理和解釋大量可用資料,並使用這些技術來改進他們自己的產品和服務。人工智慧與他們的商業利益直接一致。互聯網也使無處不在。通過雲端運算的出現,運算資源的可用性。正如我們在其他文章中所討論的,廉價的運算資源現在可以在公有雲中使用 — — 彈性/水平並可擴展。也就是說,組織能夠在他們需要的時候利用他們需要的所有運算能力。

第三,人工智慧的數學基礎在 1990 年代取得了重大進展,並隨著這些技術的成功實施而持續到 2000 年。一個關鍵的突破是人工智慧子領域的進步,稱為機器學習。重要的貢獻來自當時 AT&T 貝爾實驗室的研究人員 — — Tin Kam Ho、Corinna Cortes 和 VIadimir Vapnik — — 他們創造了應用新技術統計知識來開發和訓練高級演算法。

研究人員能夠開發出數學技術,將複雜的非線性問題轉換為具有數值解的線性公式,然後應用彈性雲端增加的可用運算能力來解決這些問題。隨著從業者迅速解決新問題並建立了一系列先進的演算法技術,機器學習得到了加速。

一些早期的機器學習使用範例及由 Google、Amazon、Meta等公司開發的面向消費者的應用程式。這些公司的機器學習從業者運用他們的技能來改善搜尋引擎結果、廣告投放和點擊率,以及產品和產品的推薦系統。

開源的AI軟體

這些公司的許多機器學習從業者,以及學術界的許多人,都接受了“開源”軟體模型 — — 在這種模型中,貢獻者可以將他們的source code免費提供給更廣泛的社群科學家和開發人員的想法 — — 這些貢獻將鼓勵所有人的創新步伐。這些開源存儲庫中最著名的是 Apache 軟體基金會。

當時,Python 開始成為首選的機器學習編程語言 — — source code 貢獻的很大一部分包括 Python libraries和工具。今天使用的許多最重要的libraries開始作為開源標準出現。

到 2000 年代中期,機器學習開始進入其他行業。金融服務和零售業是最早開始利用機器學習技術的行業。金融服務公司受到交易處理和電子商務中大量資料的推動,並開始處理信用卡欺詐等使用範例。零售業使用機器學習技術來應對電子商務的快速增長以及跟上亞馬遜的需求。

開源運動過去和現在都是使人工智慧在當今商業上運行和無處不在的一個重要因素。嘗試應用 AI 的組織面臨的挑戰是如何利用這些不同的開源組件到企業等級業務應用程序中,通過將眾多開源組件拼接在一起來構建 AI 應用程式,這種方式不太能夠有大規模部署和維護的應用程式。我們之後將在其他文章更詳細地概述這種方法的複雜性,並描述另一種方法如何解決這個問題。

深度學習的崛起

在 2000 年代中期,另一種人工智慧技術開始受到關注 — — 神經網路或深度學習。該技術採用複雜的數學方法從範例中進行推論。紐約大學的 Yann LeCUN、多倫多大學的 Geoffrey Hinton 和蒙特利爾大學的 Yoshua Bengio 等科學家的努力促成了深度神經網路的廣泛應用 — — 三位最傑出的研究人員和創新者在以下領域:電腦視覺和語音識別。

由於硬體的改進和處理大量資料的能力,深度學習領域在 2009 年左右開始迅速加速。特別是,研究人員開始使用強大的 GPU 來訓練深度學習神經網絡路— — 這使研究人員能夠以比以前快大約 100 倍的速度訓練神經網路。這一突破使神經網路在商業用途中的應用更加實用。

人工智慧已經從使用符號邏輯和專家系統(在 70 年代和 80 年代)發展到 2000 年代的機器學習系統,以及 2010 年代的神經網路和深度學習系統。

神經網路和深度學習技術目前正在改變人工智能慧領域,廣泛應用於許多行業:金融服務(欺詐偵測;信用分析和評分;貸款申請審查和處理;交易優化);醫學和保健業(醫學圖片診斷;自動化藥物探索;疾病預測;基因組特異性醫學方案;預防醫學);製造業(庫存優化;預測性維護;品質保證);石油和天然氣(預測性油田和油井產量;油井產量優化;預測性維護);能源(智慧電網優化);和公共安全(威脅偵測)。這些只是數百個當前和潛在使用範例中的一部分。

當今人工智慧的整體範圍

人工智慧是一個包含幾個主要子領域的細部分類可能令人困惑。主要區別之一是通用人工智慧 (AGI) 和 AI 之間的區別。

AGI — — 我們認為主要是科幻愛好者感興趣的 — — 是一種比電腦程序(如人類)可以在所有領域展示廣泛智慧和推理的想法。在可預見的未來,AGI 似乎無法實現,也與現實世界的 AI 應用無關。很明顯,在任何特定領域,我們將看到人工智慧應用程式的發展在某些特定工作上可以勝過人類。 1996 年,IBM 電腦在西洋棋中擊敗了卡斯帕洛夫。Google DeepMind 可以擊敗圍棋冠軍。人工智慧技術可以使用雷射並讀取比人類更準確的X光照片。但是,我們不太可能很快看到能夠比人類更好地執行所有任務的 AI 應用程序。在我們看來,能夠同時下西洋棋、下圍棋、駕駛汽車、會讀X光片、診斷癌症和寫詩的電腦程序在本世紀上半葉不太可能發展。

正如我們在本文中用到的術語,人工智慧是與商業和政府相關的領域,因為它與人工智慧的實際應用相關 — — 作為商業或政府領導者,我們希望為我們的組織利用這些應用程式。 這就是電腦程序可以被訓練來推理和解決特定的專門作業的想法。 例如,人工智慧演算法能夠優化倉庫庫存水平、預測客戶流失、預測潛在的設備故障或識別詐欺。 正如我們所討論的,人工智慧領域在過去幾十年中發展迅速。

雖然不同的 AI 子領域分為三大類 — — 機器學習、優化和邏輯 — — 但最令人興奮和強大的進步正在機器學習中發生。

機器學習

機器學習是人工智慧的一個子領域,它基於電腦可以從資料中學習而無需寫程式的方式是明確的想法。機器學習演算法對輸入的資料採用各種統計技術,以便對資料進行推斷。隨著輸入的資料量的增加以及它們生成的推論得到證實或不證實(有時是人類,有時是機器),演算法會得到改進。例如,用於偵測購買交易中詐欺的機器學習演算法會變得更加準確,因為它被提供了更多的交易資料,並且它的預測(詐欺,非詐欺)被評估為正確或不正確。

機器學習一直是推動人工智慧近期發展的核心。它通過解決現實世界的問題證明了其釋放經濟價值的能力 — — 啟用有用的搜尋結果、提供個性化推薦、過濾垃圾郵件、預測失敗和識別詐欺等。

機器學習是一個廣泛的領域,包括下一節中描述的各種不同技術。

監督式與非監督式學習

機器學習技術有兩個主要子類別 — — 監督式學習和非監督式學習。

監督式學習以標記輸入和輸出的形式訓練資料。監督學習演算法採用複雜的統計技術來分析標記的訓練資料。為了推斷一個將輸入映射到輸出的函數。當訓練有素時。監督式演算法可以針對未見過的資料進行推斷。

例如,預測發動機是否可能發生故障的 監督式學習可以通過為其提供大量標記輸入(例如歷史運行資料(如,溫度、速度、使用時間等))來進行訓練 — — 並在引擎故障和非故障的許多情況下標記輸出(故障,非故障)。該演算法使用這些訓練資料來開發適當的推理函數,以針對特定的新輸入資料預測引擎故障。該演算法的目標是以可接受的精度來預測發動機故障。該演算法可以通過根據有關其預測準確性的反饋自動調整其推理函數來隨著時間的推移而改進。在這種情況下,將根據是否發生故障自動產生反饋。在其他情況下,反饋可以是人工產成的,就像人類評估預測結果的圖片分類算法一樣。

監督學習技術有兩大類。首先是分類(classification)技術。這些預測特定類別的輸出 — 例如引擎是否會發生故障。某個交易是否代表詐欺,或者某個圖片是否是汽車。第二類是回歸(regression)技術。這些預測值 — — 例如下週的銷售預測。在預測下週銷售的情況下,石油公司可能會使用一種演算法,該演算法通過輸入歷史銷售資料和其他相關資料(如天氣、市場價格、生產水平、GDP 增長資料等)進行訓練。

與監督學習相比,非監督學習技術在沒有“標籤”的情況下運行。也就是說,他們並沒有試圖預測任何具體的結果。相反,他們試圖在資料集中尋找模式。非監督式學習的例子包括聚類(clustering)演算法 — — 它試圖以有意義的方式對資料進行分組,例如識別相似的銀行客戶,因此可能代表新的客戶群用於營銷目的 — — 或異常偵測演算法,它定義資料中的正常行為和識別異常模式,例如偵測可能是洗錢的銀行交易行為。

神經網路

神經網路 — 尤其是深度神經網路— 代表了一種更新且快速增長的機器學習演算法類別。 在神經網路中,資料被送到輸入層,神經網路的輸出被擷取在輸出層中。 中間的層是“隱藏的”激活層,它們對資料執行各種變換以推斷資料的不同特徵。 深度神經網路通常具有多個(超過兩三個)隱藏層。 所需層的數量通常(但不總是)隨著用例的複雜性而增加。 例如,用於確定圖像是否為汽車的神經網路的層數將少於設計的層數。

2012 年,一個名為 AlexNet 的神經網路贏得了 ImageNet 大規模視覺識別挑戰賽,這是一項將人類預先分類為 1000 個類別(包括 90 個犬種)的數百萬張圖像進行分類的競賽。 AlexNet 在 84.7% 的時間內正確識別圖像,錯誤率僅為 15.3%。這比第二名的系統好 10% 以上 —這是一個非常出色的結果。自 AlexNet 以來,用於圖像處理的深度學習一直在不斷進步,其準確率超過了 95% — — 優於一般人類的表現。

多個行業的組織正在將使用神經網路的深度學習技術應用於一系列問題,並產生令人印象深刻的結果。在公用事業領域,神經網路被用於最大限度地減少“非技術損失(non-technical loss-NTL)”。在全球範圍內,NTL 每年因測量和記錄錯誤、因篡改或繞過電錶而盜竊電力、預付賬單以及其他相關損失而損失數十億美元。通過減少公用事業公司的 NTL,這些 AI 應用程式有助於確保電網更可靠,並為客戶提供更高效能的電價。

使用神經網路的主要優勢之一是減少或消除特徵工程(feature engineer),這是使用傳統機器學習演算法時的一項耗時要求。神經網路能夠從資料中學習輸出和相關特徵,而不需要大量的特徵工程。但是,它們通常需要大量的訓練資料並且計算量很大。這就是為什麼 GPU 的使用已被證明對神經網路的成功至關重要。

克服機器學習的挑戰

對於許多人工智慧用例,組織可以部署預先構建的、商業上可用的 SaaS 應用程式,而無需自己開發應用程序(例如公有雲上的各項 AI服務)。其中包括預測性維護、庫存優化、欺詐偵測、反洗錢、客戶關係管理和能源管理等應用。除了部署預先構建的 SaaS 應用程式外,大多數大型組織還需要開發自己的 AI 應用程式,專門針對其特定需求量身定制。

由機器學習人工智慧驅動的應用程式的成功開發需要正確的技能,專業知識,以及正確的工具和技術。世界上相對較少的組織擁有所有必要的內部專業知識和能力來構建、部署和營運能夠帶來有意義價值的複雜人工智慧應用程式。絕大多數組織將需要與合作夥伴合作,以提供構建、測試、部署和管理應用程序所需的專業知識和技術堆棧。

機器學習: 開發與部署的工作流程

了解如何避免 AI 開發計劃中的潛在陷阱是具有顯著的財務優勢和商業利益,這樣我們就可以快速獲得積極的投資回報率。 為了了解大規模開發和部署 AI 應用程式的挑戰 — 以及為什麼正確的專業知識、合作夥伴網路和開發平台至關重要 — 讓我們看看機器學習開發過程中涉及的內容。 在這個部分。 我們概述了開發和部署機器學習 AI 應用程式的順序工作流程。 機器學習專家能很好的理解了這個過程。

1. 資料的整合與準備

第一步是識別所需的相關資料集,然後將資料組合成一個統一的格式,這對機器學習很有用。 由於資料來自多個不同的來源和軟體系統,因此資料品質經常存在資料重複、資料有漏、資料無法使用和資料亂序等問題。 因此,開發平台必須提供工具來解決這些問題,包括自動將資料攝取(ingestion)、整合、正規化和聯合到適合機器學習的統一格式過程的能力。

2. 特徵工程(Feature Engineering)

下一步是特徵工程。 這涉及遍歷資料並製作資料科學家和領域專家認為與正在解決的問題相關的單一信號。 在基於 AI 的預測性維護的情況下,信號可能包括訓練 7 天、14 天和 21 天期間特定故障警報的計數; 相同追踪週期內特定警報的總和; 以及在這些尾隨期間某些感測器信號的最大值。

3. 標記結果

此步驟涉及標記模型試圖預測的結果(例如,引擎故障)。 由於原始資料集和業務流程的定義最初並未考慮到 AI,因此資料中通常沒有明確定義具體結果。 例如,在基於 AI 的預測性維護應用程式中,來源資料集很少識別實際故障標籤。 相反,預測者必須根據故障代碼和技術人員工作指令等因素的組合來推斷故障點。

4. 設置訓練資料

現在是設置用於訓練演算法的資料集過程。 這個過程有許多細微差別,可能需要外部專業知識。 對於分類作業,資料科學家需要確保標籤與陽性樣本和陰性樣本適當平衡,以便為分類器演算法提供足夠平衡的資料。 例如,在最近為一家公用事業公司進行的詐欺檢測部署中,一個分類器在一個全國性的大型資料集上對歷史案例進行了訓練,錯誤地識別出一些可疑的詐欺案例,這些案例在偏遠的地區,調查人員只有在他們確定的情況下才會前往那裡確定有無詐欺。 因此,該地區調查的所有歷史案例都是真正的陽性標籤。 因此,分類器總是將地區位置與詐欺發生率關聯起來,因此必須調整演算法。

5.選擇與訓練演算法

下一步是選擇實際的演算法,然後使用訓練資料集對其進行訓練。 如今,由公司、大學、研究機構、政府機構和個人貢獻者創建的眾多演算法圖書庫可供資料科學家使用。 許多可以作為開源軟體從 Github 和 Apache 體件基金等存儲庫中獲得。 人工智慧從業者通常會在這些圖書庫中進行專門的搜尋,以識別正確的演算法並構建經過最佳訓練的模型。 經驗豐富的資料科學家知道如何縮小搜尋範圍,專注於正確的演算法類別來測試特定的用例。

6. 部署演算法到生產環境

然後必須部署機器學習演算法以在生產環境中運行:它需要接收新資料,產生輸出,並根據這些輸出做出一些行動或決策。 這可能意味著將演算法嵌入到人類用來做出決策的企業應用程式中 —例如,預測性維護應用程式識別並優先考慮需要維護的設備,從而為維護人員提供引導。 這就是創造真正價值的地方— 通過更準確的故障預測來減少設備停機和維修成本,從而在設備實際發生故障之前進行主動維護。 為了使機器學習演算法在生產環境中運行,需要設置和管理底層計算基礎設施。 這包括大型資料集所需的彈性橫向擴展和大數據管理能力(例如,擷取、整合等)。

7. 循環式的持續精進

一旦投入生產。 AI演算法的效能需要被追踪和管理。 隨著市場條件的變化、業務目標和流程的發展以及新資料源的確定,演算法通常需要資料科學團隊進行頻繁的再訓練。 組織需要保持技術敏捷性,以便隨著環境的變化快速開發、重新訓練和部署新模型。

在過去的幾十年中,人工智慧科學已經發展和成熟。 我們現在不僅可以使用基礎技術,而且組織現在可以結合各領域專家、資料科學家和專業服務,這些服務可以幫助他們利用人工智慧的力量來獲得競爭優勢。

AI的商業利益

今天,人工智慧技術帶來了真正的商業利益。特別是,谷歌、Netflix 和亞馬遜等科技公司大規模使用人工智慧。麥肯錫全球研究院 (MGI) 估計,2016 年科技公司在人工智慧上花費了 200 億至 300 億美元。人工智慧提供具體商業利益的一些最成熟的應用是線上搜尋、廣告投放以及產品或服務推薦。

醫療保健行業正開始從 AI釋放價值。對於醫療保健公司來說,使用機器學習來改善患者治療結果、預測慢性病、防止對阿斯匹林類藥物和其他藥物成癮以及提高疾病編碼的準確性存在重大機會。

製造業也已採取策略從 AI 應用程式中釋放價值,包括使用 AI 進行預測性維護和跨零件供應鏈的優化。

能源公司使用人工智慧改變了營運。公用事業使用先進的人工智慧應用程式來識別和減少詐欺、預測電力消耗並維護其發電、輸電和配電資產。

人工智慧在國防領域有一些新興應用。美國軍方已經使用基於人工智慧的預測性維護來提高軍事準備並簡化操作。其他用例包括物流優化、庫存優化、循環和人事管理。

AI的實際案例:增加10億美元的利潤

為了說明人工智慧如何解決幾乎所有企業共有的複雜問題,讓我們看一個使用人工智慧提高金融業留住客戶的例子。 企業將大量資源集中在能讓客戶滿意、業務成功上。 特別是在 B2B ,監控客戶帳戶的健全狀況可能具有挑戰性。 通常,這是由專門的企業客戶經理撥打電話並手動追踪客戶轉換到不同金融服務提供商。

在商業銀行市場中,銀行基於多種因素競爭業務,包括提供服務、利率和交易費用。 銀行通過對客戶交易收取的費用以及從客戶帳戶中提取資金所賺取的利息產生收入。 因此,銀行的企業客戶經理會仔細追踪客戶的交易活動和現金餘額,因為這些是主要的收入驅動因素。 這主要是一個手動過程,使用excel進行管理,並基於銀行的 CRM 和其他系統產生的報告。 但由於許多內部和外部因素 — — 投資活動、合併和分拆、競爭動態等 — — 會影響客戶在任何特定時期的交易量和餘額,這些指標中存在很多雜音。

因此,企業客戶經理很難儘早發現客戶可能出於可預防的原因永久減少或終止與銀行的業務的跡象。 如果企業客戶經理能夠及早發現有風險的客戶,他們或許能夠採取行動。 例如,客戶可能會因為某些貸款在財務上過度擴張而減少其業務。 在這種情況下,企業客戶經理可能會提出重組貸款或其他貸款諮詢服務。 或者,競爭對手可能為客戶提供了更好的利率,在這種情況下,企業客戶經理可以擴大具有競爭力的利率。

面對這種複雜性,一家領先的金融服務公司正在使用人工智慧套件開發一個人工智慧驅動的應用程式,以幫助企業客戶經理有效識別並主動與潛在風險企業客戶互動。 這家銀行僱傭了數百名企業客戶經理,為數萬名企業客戶提供服務,總現金餘額達數千億美元。 在這個高利潤的業務線中客戶保留率的任何改善都代表了銀行的重大經濟價值。

人工智慧應用程式從眾多內部和外部來源擷取和統一資料,包括不同頻率層級的多年歷史資料:客戶交易和帳戶餘額; 現金餘額支付的利率變化; 信用風險; GDP增長; 短期利率; 資金供應; 其他資源的特定帳戶公司行為資料。 通過對這些資料即時應用多種人工智慧演算法,該應用程式可以識別處於風險中的客戶的概況,預測那些可能出於可預防的原因而減少帳戶餘額的客戶,並向客戶經理發送優先級警報,使他們能夠主動採取行動。

與客戶經理使用的傳統方法相比,使用人工智慧應用程式可以更準確地預測和及時識別有風險的客戶。 該銀行估計,應用此人工智慧應用程式的年度增量經濟價值約為 10 億美元 — — 純利潤。

人工智慧的經濟和社會影響

人工智慧將對社會和商業產生深遠的影響。 根據普華永道 2017 年的研究,預計到 2030 年,由於人工智慧,全球 GDP 將增加 15.7 萬億美元,其中一半來自勞動生產率的提高,另一半來自消費者需求的增加。 普華永道估計,特定行業的潛在價值創造可能達到 1.8 萬億美元的專業服務、1.2 萬億美元的金融服務、2.2 萬億美元的批發和零售以及 3.8 萬億美元的製造業。

根據普華永道的同一項研究,影響不會在全球範圍內均勻分佈。 雖然北美目前處於領先地位,歐洲和亞洲發達經濟體緊隨其後,但預計中國最終將超越其他國家。 事實上,中國已將到 2030 年成為人工智慧領域的世界領導者作為國家優先事項和目標。對於世界各地的組織,尤其是與中國同行競爭的組織,數位轉型和專門投資人工智慧能力的緊迫性與日俱增。

人工智慧驅動的成長是發達經濟體數十年來生產率增長放緩的一劑受歡迎的解毒劑。 但對於那些不適應的人來說,人工智慧進步的潛在負面影響將是尖銳而痛苦的。 對於某些組織來說,他們的存在本身就處於危險之中。

Renowend 哈佛商學院教授邁克.波特— — 其關於競爭戰略的著作是該領域的經典著作 — — 推測一個沒有人工智慧和大數據支持的“智能互聯產品的新世界”代表著競爭的基本動力發生了翻天覆地的變化。 波特認為這不僅僅是競爭優勢的問題。 它是存在的。 回想一下,自 2000 年以來,52% 的財星 500 大公司已被收購、合併或宣布破產。組織滅絕的威脅非常真實。

一段時間以來,學術界、科學家和市場研究人員對人工智能的影響提出了警告。 對話相當低調,主要局限於技術和科學界。 偶爾會出現對知名 AI 悲觀主義者的新聞報導 — — 比如2017 年關於 Elon Musk 的“阻止 AI 末日的十字軍東征”的文章 — — 引發了 AI 反彈的導火線。 到 2018 年初,對 AI 的擔憂進入了內部階段,成為 Davod 和隨後媒體報導的主要話題。 隨著大眾媒體和權威人士將關於該主題的觀點拼接在一起,估計和預測突然有了額外的意義。 諸如機器人世界末日、所有工作的消失以及文明的毀滅等可怕的場景在所有媒體上大肆宣揚。

大多數對今天的人工智慧情況的專家都認為這種令人不安的做法被廣泛誇大了。歷史表明,人工智慧所代表的規模變化最初遭到了恐懼和懷疑,最終還是被大規模採用,成為常態。但這並沒有減少文化和社會方面的不利因素。對於某些類型的工作,影響將是明顯的。人類偏見對人工智慧分析的影響是真實存在的。

許多工作將永遠的失去。對現有員工進行再訓練以適應將是一個具有挑戰性的社會問題。政府和產業越早以深思熟慮的政策做出反應,影響就越小。同時,大多數經濟 AI 價值案例將需要人類第一線操作人員來執行。當然,中層階管理人員和高階人員通常會在短期內與人工智慧一起作業。

與其他技術進步一樣,人工智能很快將創造比它所破壞的更多的就業機會。正如互聯網通過自動化淘汰了一些工作一樣,它催生了大量新工作 — — 網頁設計師、資料庫管理員、社交媒體經理、數位市場等。其中一些新工作將是電腦科學、數據科學、和資料工程。顧問公司的輔助工作將繼續增長,無論是在 麥肯錫和 BCG 等傳統顧問公司,還是在 MU Sigma 等決策科學公司。

但現實可能會對社會產生更廣泛的影響,我們還不能預測人工智慧的廣泛實施會產生所有不同類型的工作。 印度總理莫迪 (Narendra Modi) 在 2017 年談到電子政務計劃時說:“人工智慧將推動人類發展。專家表示,通過人工智慧創造就業機會的可能性很大。技術有能力改變我們的經濟潛力。”

積極的觀點比比皆是。 隨著全球人口到 2050 年將增長到 97 億人,人工智慧農業可以幫助農民在不斷減少的土地資源上滿足對增加 50% 作物的需求。 人工智慧驅動的精準醫學將更有效地識別和治療癌症。 更好的網路安全將偵測和預防威脅。 人工智慧機器人將幫助老年人,提供更多的獨立性和更好的生活品質。 人工智慧將顯著提高掃描數十億線上回覆和網頁以尋找可疑內容的能力,以保護兒童和其他人免受販運和虐待。 氣候變遷、犯罪、恐怖主義、疾病、飢荒 — — 人工智慧有望幫助緩解這些和其他全球疾病。

人工智慧應用程式主要在提供超越商業影響的重大社會價值:一種人工智慧應用程式,用於預測阿斯匹靈類藥物依賴的可能性,以便醫生可以在開藥時做出更好的決定,並使數百萬人免於成癮。 一種人工智慧應用程式,用於預測公共安全威脅,以便治安機構更好地保護人類生命。 用於偵測洗錢的人工智慧應用程式,以便金融機構能夠改善每年 2 萬億美元的損失。

每一位開明的商業和政府領導人都在積極努力了解如何利用人工智慧來造福社會、經濟和環境。 我們幾乎還沒有觸及到用人工智慧改善人類生活和地球健康的可能性的層面。

AI人才爭奪戰

因為現在人工智慧對於每個希望從分析大數據中受益的組織來說都是必不可少的,所以對訓練有素的資料科學家的競爭非常激烈。 因此,當今全球人工智慧人才嚴重短缺。 現有人才極其集中在谷歌、Facebook、亞馬遜和微軟等少數科技公司。 據估計,僅 Facebook 和谷歌就僱傭了 80% 的機器學習博士學位的人才進入就業市場。

雖然公司中的許多人擁有與資料科學相關的職位,但大多數人並不擅長機器學習和人工智慧。 企業仍然認為資料科學家是使用儀表板執行商業智慧的分析師,或者充其量是從資料集中進行抽樣以得出靜態推斷的統計學家。 大多數組織剛剛開始向 AI 發展,並沒有強大的 AI 從業人員。

自 2000 年以來,人工智慧新創公司的數量增加了 14 倍,而同期對人工智慧新創公司的風險投資增長了六倍。 自 2013 年以來,需要 AI 技能的工作份額增長了近 4.5 倍。全球對資料科學家和分析技術管理人員的需求不斷增長,這引起了全球政界人士、政府、企業和大學的關注。

當然,資料科學家人才始於大學培訓。 高薪資料科學工作的增加引發了資料科學相關學系入學人數的激增:從 2010 年到 2015 年,擁有資料科學和分析學位的畢業生增長了 7.5%,超過了其他學位的總和僅增長 2.4%。 如今,僅在美國就有 120 多個碩士課程和 100 個商業分析課程可供選擇。 為了培訓現有員工,許多的線上課程 和證書越來越受歡迎和具有可用性。

2018 年,Linkedin 報告稱,自 2014 年以來,美國資料科學家的職位增長了 500%,而機器學習工程師的職位增長了 1200%。 2017 年的另一項研究發現,到 2020 年,資料科學和分析工作的總數將增加到 2,720,000 個,並將對許多的產業產生影響。 在 Glassdoor 和 LinkedIn 等招聘網站上,機器學習工程師、資料科學家和大數據開發人員最受歡迎,需求來自眾多產業。

因此,公司為收購資料科學家付出了高昂的代價。 例如,2014 年,谷歌以 5 億美元的價格收購了僅有 75 名員工的人工智能新創公司 DeepMind,每名員工超過 600 萬美元。 此次收購至少產生了兩個重大成果:它促成了 AlphaGo 的開發,這是第一個在圍棋遊戲中擊敗了棋王的人工智慧程式 — — 這被認為是中國的“人造衛星時刻”,推動 其政府將人工智慧作為首要戰略重點。 最近,DeepMind 的 AlphaFold 演算法贏得了 2108 年assessment of Structure Prediction (CASP) 競賽的關鍵評估 — — 被認為是“虛擬蛋白質折疊奧運會,其目的是根據基因序列資料預測蛋白質的 3D 結構”。 這是生物分子研究的一個重要領域,在提高對疾病的認識和發現新藥方面具有重要的潛力。

為了解決對資料科學技能的整體需求,政府已經開始採取行動。 英國的開放資料研究所和艾倫圖靈研究所、歐盟委員會的 2014 年大數據戰略以及美國聯邦政府的 2016 年大數據研發戰略計劃都是協調努力解決對訓練有素的資料科學家的需求的例子。 中國已將人工智慧作為“十三-五”計畫和新一代人工智慧發展規劃的核心之一,正在大力投資人工智慧研究,包括培養資料科學家的大學科目。 但中國也估計將面臨資料科學家的短缺:2016 年信息技術部估計中國將需要 500 萬以上的人工智慧工作者來滿足其需求。

在全球範圍內,更多的傳統研究項目正在為核心研究做出貢獻,並且正在快速發表論文。 領先機構包括美國麻省理工學院、卡內基梅隆大學、史丹佛大學和南加州大學; 亞洲南洋理工大學、新加坡國立大學、香港理工大學、香港中文大學、自動化研究所、清華大學、中國科學院; 格林納達大學和歐洲慕尼黑工業大學; 以及加拿大、瑞士、意大利、荷蘭、澳大利亞和比利時的其他國家等。

美國的數據科學計劃正在擴展到許多方面。 2014 年,加州大學伯克萊分校推出了線上資料科學碩士課程,現在提供資料科學和分析方面的高階管理教育課程。美國加州的 30 多所高中已經開始為大三學生提供資料科學課程。從長遠來看,需要在 K-12 課程中重點關注數學和電腦科學教育,以解決 AI 技能差距。

還有越來越多的“新手訓練營”和有抱負的資料科學家的培訓計劃。這些項目招收具有強大技術背景的專業人士 — — 例如數學、物理學或其他工程學科 — — 來培訓他們並為 AI 營運做好準備。其中一些新手訓練營課程都有線上課程。例如,Coursera 為機器學習和深度學習提供線上課程。其他課程是面對面的,例如舊金山灣區的洞察資料科學計劃。

除了資料科學家之外,公司還將越來越需要麥肯錫稱之為“翻譯”的個人。翻譯人員可以彌合 AI 專家和企業之間的鴻溝。他們對管理有足夠的了解,可以有效地指導和利用人工智慧人才,他們對人工智慧有足夠的了解,以確保演算法正確地整合到業務實際面中。

毫無疑問,我們正處於一個過渡時期,因為組織重新培訓他們的員工,招聘具有人工智慧學位的畢業生,並適應人工智慧創新和採用所驅動的許多變化。但是,對於意識到人工智慧驅動未來的必然性並需要立即開始構建有人工智慧能力的組織來說,有一條清晰的前進道路。如今,組織可以依靠 AI 顧問和經過驗證的技術合作夥伴的專業知識,同時發展自己的內部 AI 能力。

成功的成為人工智慧驅動的企業

我們已經看到,要在人工智慧方面取得成功,組織需要新的技術和業務能力來管理大數據,以及資料科學和機器學習方面的新技能。

組織在 AI 方面取得成功面臨的最後一個挑戰是實施 AI 所需的業務流程變化。 正如互聯網的出現推動組織在 1990 年代和 2000 年代初改變業務流程一樣,人工智慧也推動了類似的變革。 組織可能需要調整其整體員工以接受來自 AI 系統的建議並向 AI 系統提供反饋。 這可能很困難。 例如,幾十年來一直以特定方式完成工作的維護從業者經常抵制人工智慧演算法可能識別的新建議和實踐。 因此,從人工智慧中獲取價值需要管理者的強大領導力和第一線員工的靈活的心態。

出於所有這些原因,開始數為轉型計劃的組織越來越多的與有豐富經驗的技術合作夥伴合作,以幫助克服建立、部署和營運基於人工智慧的應用程式的挑戰,並推動業務流程變革以取得價值。 組織正在投資新的技術堆棧 — — 我門之後會在其他文章描述到 — — 提供比傳統方法更有效的方式滿足這些要求的能力。

隨著人工智慧應用程式變得越來越大和越來越複雜,新一代技術變得越來越重要,特別是當企業和其業務的價值鏈配備感測器和驅動設備時 — — 這種現像被稱為物聯網。 這將組織可用的資料量增加了好幾個個數量級,並且還提高了資料集的真實度和準確性。

組織將面臨挑戰,以解釋物聯網產生的大量資料並利用這些資料及時採取適當的行動。 解釋和處理大型資料集將需要人工智慧的應用,因此這將在釋放物聯網價值方面發揮重要作用。 我們將在其他文章更全面地描述物聯網現象及其對業務的影響。

雖然錯過數位轉型機會的威脅是存在的,但開始戰略性、組織範圍內的轉型的回報將真正改變遊戲規則。 PwC、麥肯錫、世界經濟論壇和其他機構的研究表明,未來十年,數位化轉型將在全球範圍內推動數十億美元的新價值創造。 現在採取行動的組織將把自己定位為從該價值中能取得大部分的回報。

--

--

運用"雲端服務"加速企業的數位轉型願景
運用"雲端服務"加速企業的數位轉型願景

Written by 運用"雲端服務"加速企業的數位轉型願景

我們協助您駕馭名為"雲端運算"的怪獸,馴服它為您所用。諮詢請來信jason.kao@suros.com.tw. https://facebook.com/jason.kao.for.cloud

No responses yet