企業的數位轉型 — Part3 加速的資訊時代
CEO們和其他高階領導者需要比過去更詳細地了解推動當今數位轉型的技術。 這是為什麼呢? 與之前的技術浪潮相比,我們已經看到數位轉型涉及組織如何運作和做什麼的核心。 例如,如果你是一家汽車製造商,你的業務主要是製造汽車 — — 還是為你的客戶提供運輸和移動性? 還有什麼更有價值:你的動力傳動系統設計知識產權,還是由你製造的車輛產生的及時遙測和使用資料提供的基於 AI 的自動駕駛演算法? 每個產業的領導者都需要提出這樣的問題,並徹底審視這些技術將如何深刻改變他們的市場以及他們如何開展業務。
賭注從未如此之高 — — 無論是在滅絕風險還是潛在回報方面。 對於任何大型企業來說,部署AI和IoT應用的年經濟價值從數億美元到數十億美元不等。 例如,在荷蘭皇家殼牌公司,為全球超過 500,000 個煉油廠價值部署基於人工智慧的預測性來維護應用程式,估計每年可產生數億美元的收益,從而降低維護成本並提高運營效率。 殼牌計劃在其全球上游、下游和中游業務中推出更多 AI應用程序。 預期收益每年約為數十億美元。
實施數位轉型的舉措意味著組織將在各個面向(從HR和客戶關係到財務流程、產品設計、維運)構建、部署和運行數十個、甚至數百個甚至數千個 AI 和 IoT 應用程序,以及供應鏈運營。任何層面都會受到影響。因此,高層領導層有責任堅定地理解這些技術。
我們的建議是計劃充分了解這些技術,以便與你的內部技術人員進行充分知情的討論,並選擇對你的成功至關重要的正確技術合作夥伴。以避免不合格的合作夥伴和永遠無法交付價值的內部專案面向,而這項投資將帶來可觀的回報。
本文概述了推動和實現數位轉型的四項關鍵技術 — — 彈性的雲端計算、大數據、人工智慧和物聯網。想要將理解擴展到更深層次的讀者 — — 尤其是直接負責推動數位轉型計劃的C-suite— — 將受益於閱讀後續四篇文章深入研究每種技術的章節。
挑戰令人望而生畏 — — 但有經過驗證的解決方案
推動數位化轉型的技術顯然正在改變遊戲規則,但我們正處於這個新時代的早期階段。儘管潛力巨大,但在整個企業中開發和擴展 AI 和 IoT 應用程式的挑戰可能令人生畏。
聚合和處理快速增長的 PB 級數據集(即 100 萬 GB)所需的基礎能力是從數以千計的不同傳統 IT 系統、網際網路資源和數百萬個感測器網路中不斷收集而來的。以一家Fortune 500 製造商為例,數據聚合問題的規模是 50 PB資料 分散在代表客戶、經銷商、訂購、定價、產品設計、工程、規劃、製造、控制系統、會計、人力資源的 5,000 個系統中、物流和供應商系統,被併購、產品線、地域和客戶參與管道(即線上、實體商店、客服中心)分散。隨著數億個感測器嵌入產品中,產生 1Hz(每秒 1 個)或更高的高頻讀數,這些數據集每天增加數萬億次讀數。
從這些數據中"聚合、關聯和提取"價值以進行業務轉型所需的技術在十年前還不存在。但是今天,便宜的感測器(低於 1 美元)和信用卡大小的 AI 超級計算機的可用性通過快速網路互連成及時自我適應的企業。雲端計算、大數據、人工智慧和物聯網融合在一起,麥肯錫估計,到 2030 年,每年的商業價值將高達 23 萬億美元。
組織面臨的一個關鍵挑戰是如何整合和利用這些技術來創造有意義的價值和積極的投資回報。現在,我們只想說,對於開始數位轉型的組織來說,有很多好消息 — — 現在可以使用強大的工具和專業知識來大幅加快數位轉型工作並確保取得成功。
雲端運算
雲端運算是推動數位轉型的四項技術中的第一項。沒有雲端運算,數位轉型是不可能的。雲端運算是一種存取可配置的硬體和軟體資源共享池的模型 — — 計算機、網路、服務器、數據存儲、應用程式和其他服務 — — 可以通過最少的管理成本(底層設施管理與自動化)快速提供,通常是通過網際網網。這些資源可能由一個組織私人擁有以供其獨占使用(私有雲)或由第三方擁有以供任何人在付費使用的基礎上使用(公有雲)。
雲端計算的展現形式是從第三方供應商處按所需來租用計算和存儲資源,亞馬遜通過 AWS 部門開創了端計算的先河。 2002 年作為 Amazon 開發人員的內部服務開始的服務於 2006 年隨著EC2和S3 的推出而公開發售。公有雲市場預計到 2025 年將達到驚人的 8310 億美元,距其誕生僅十九年時間。預計到 2022 年,僅 AWS 的年收入就會增長到 430 億美元。來自微軟和谷歌的競爭非常激烈,這保證了計算和存儲價格迅速下降並趨近於零。
認知到雲端提供商(CSP)可以在安全可靠的資料中心的全球網路中運行大量伺服器和存儲設備方面做得更好、成本更低,因此組織正在迅速將舊有的應用程序(工作負載)從其企業的資料中心轉移到公有雲中。
關閉資料中心的企業有很多,總部位於羅馬的公用事業公司 Enel 關閉了 23 個資料中心,其中 10,000 台伺服器支持其在 30 個國家/地區的運營,並且 他們正在將 1,700 個舊有的應用程式整合為 1,200 個應用程式並將它們轉移到 AWS。 Netflix、優步、德意志銀行和無數其他公司現在所有或很大比例的IT都在公有雲上運行。
虛擬化與容器
雲端運算卓越規模經濟的一個關鍵推動因素是被稱為“虛擬化”的技術創新。以前,在傳統的資料中心,硬體的大小和配置是為了處理實際需求。組織安裝了足夠多的伺服器和存儲設備以支持他們預期的最高層級的運算需求,這通常只發生在相對較短的時期(例如,季度末訂單處理)。這導致大部分空閒資料中心的硬體利用率低,平均為個位數百分比。虛擬化允許從單個物理硬體系統創建多個模擬環境和專用資源。 “容器”是實現物理資源高效共享的另一項創新。容器是一個輕量級的、獨立的、可執行的軟體包,其中包括運行它所需的一切 — — 代碼、runtime、系統工具和函式庫以及配置。使用虛擬化和容器在應用程式之間共享硬體可顯著提高利用率,並且更具成本效益。這轉化為極具吸引力的經濟價值主張,推動了 AWS、Azure、Google Cloud等公有雲平台的廣泛採用。
每件事都是服務 : IaaS, PaaS, SaaS
雲端運算最初是由獨立和企業軟體開發商推動的,他們希望節省獲取、構建和管理可擴展且可靠的硬體基礎設施的前期時間、成本和工作量。 開發人員被雲端模型所吸引,因為它允許他們專注於開發軟體,而雲端提供商處理基礎設施 (IaaS)、可擴展性和可靠性。
今天的雲端平台是“彈性的” — — 也就是說,它們動態地確定應用程式所需的資源量,然後自動的配置和刪除配置運算基礎設施以支持應用程式。 這將開發人員和 IT 團隊從許多維運任務中解放出來,例如硬體和軟體設置和配置、軟體修補、操作分佈式數據庫集群以及根據擴展需要在多個實例(Instance)上對資料進行分區。 雲端客戶只為實際使用的資源付費。
雲端產品現在擴展到 IaaS 之外,包括應用程式開發平台 (PaaS) 和軟體應用程式 (SaaS)。 PaaS 產品提供專門用於構建、部署、操作和管理軟體應用程序的軟體開發工具和服務。 除了管理底層基礎設施(伺服器、存儲、網路、虛擬化)之外,PaaS 產品還管理應用程序所需的其他技術組件,包括runtime、作業系統和middleware。
多雲與混和雲環境
CIO 現在認識到跨多個CSP運營的重要性,以減少對任何一個CSP的依賴(所謂的“vendor lock-in”)並利用公有雲CSP服務的差異化優勢。多雲是指在單個異構架構中使用多個雲端服務。例如,應用程式可能使用 Microsoft Azure 進行存儲,使用 AWS 進行運算,使用 Google 進行深度學習。
能夠跨私有雲和公有雲(即“混合雲”環境)運行應用程式也很重要。超敏感的客戶資料可能存儲在私有雲中,而公共雲基礎架構可能用於按“burst capacity” — — 用來處理尖峰的多餘容量 。
更難實現的是在利用這些CSP提通的Cloud Native服務的同時實現“雲端的可移植性” — — 即,能夠輕鬆替換應用程式使用的各種雲端服務與其他雲端供應商的服務。例如,將谷歌的圖像識別服務替換為 AWS 的圖像識別服務。雖然使用“容器”(將應用程式與基礎設施隔離的技術)可以實現應用程式的雲端可移植性,但容器並不能實現CSP所提供的"服務"的可移植性。
大數據
第二種驅動數位轉型的科技向量就是大數據。在IT系統中,資料向來都是很重要的,但是在數位轉型中資料的價值達到了前所未有的地步。許多的AI服務都特別需要大量的資料餵養,這些資料會被拿來訓練其演算法,而AI服務則靠著這些資料不斷強化其演算法。
大數據(Big Data)這個詞大約是在2000年時開始被天文學與基因學的領域開始引用。這些領域產生了大量無法用具成本效益與傳統集中式的電腦架構來處理的資料,通常這種傳統電腦架構我們稱之為 scale-up。另外一方面處理大數據的資料就使用了稱為Scale-out架構,意思是一次使用成千上百的電腦來平行處理這些大量的數據。而過去十幾年來軟體架構也發展出適合這種scale-out的架構來平行處理大數據資料。顯著的例子包含MapReduce 編程範式(原來由Google在2004年所發展) 與 Hadoop (Yahoo在2006年根據MapReduce 編程範式發展的)。今天在Apache 軟體基金會的open source software license下,Hadoop MapReduce框架已經在存在於大量軟體的元件之中。
如我們所見的,今日的數位轉型初始行動就需要有能夠處理Petabyte 等級以上的資料量。當Apache Hadoop系統提供了許多強大與經常使用到的組件來幫我們管理大數據與建立AI與IoT Application,企業發現到要將這多的組件組合成企業所要達到的功能變得極其困難。我們後面會有專門的篇章來介紹如何組合這些組件來達成我們所要的功能,稱為技術堆疊(technology stack)。
大數據大爆發
過去,收集資料是花時間也是花人力的。所以企業是以統計學的方式做資料取樣,利用這些資料取樣點來推論整體資料的模樣。由於這些小量的取樣資料量,統計學家花費了大量精力和時間來管理數據來移除離群值避免可能扭曲分析結果。
但今天,雲端運算提供了近乎無限的運算與儲存能力,並伴隨著適合這種運算與儲存能力能夠平行處理大量資料的新興軟體,再也不需要取樣或整理資料。取而代之的,是通過對大型數據集的分析,對異常值或其他不完美數據進行適當加權。因此,今天有數百億支連接網際網路的各項裝置(手機/IoT/感測器等)產生zettabytye 等級的資料。組織可以利用這些基於所有可用的資料產生近乎即時性資料推論。正如同我們所看到的,這種處理的所有數據的能力是人工智慧進步的基礎。
另一種AI顯著的進步是,將數據導入至人工智慧後我們不需要專家來進行各種假設來驗證。相反的,人工智慧演算法能夠直接從複雜系統生成的數據中學習複雜系統的行為。
例如,請一個有經驗的放款專業人員來判斷客戶是否有可能違約的因素,AI或機器學習更可以學習這些因素與它們相關的重要性來更準確的判斷,這是基於組織內外部所有可用的大量資料來預先判斷違約的可能性。
這種含義其實很明顯。一個有經驗的機器學習工程師不再需要預測汽車引擎何時失效。一位有經驗的醫師不再需要預測病患何時會心臟病發作。不再需要地質工程師來預測油井位置以獲得最佳生產。這些都可以讓電腦從資料從學習 — 更快且更正確。
人工智慧
驅使數位轉型的第三項技術就是人工智慧(AI)。AI是一門打造能夠使機器具有與人類相同能力在解決問題與學習基本智能的科學與工程技術。
AI能夠幫助人類解決的問題傳統上包含自然語言處理與翻譯;影像與模式辨認(例如,詐欺偵測,預測失敗的可能,或預測病人慢性病發作的可能性);決策支援系統(例如,自駕車與指式性分析)。AI能夠處理的問題的數量與複雜度正在快速增長。例如,AI現正能處理處理高度複雜的供應鏈問題,像是庫存優化;生產問題,或是優化生產產品的速度;車隊管理,如最大化資產活用的時間與可用性;保健問題,如預測藥物成癮的風險等等日常需要動用人類才能解決的問題。
機器學習
這是屬於AI底下的子集合。一種能夠透過從範例與經驗(通常是輸出入的資料)的演算法而不是依照預先寫好的規則執行的傳統演算法。一個簡單的演算法例子是將數字由多至少的排列,輸入一組沒排序的數字,輸出就是經過機器學習排序後的數字。當然這個範例也可以用預先寫好的規則(傳統演算法)來執行,但這個規則就必須寫的非常精準(意思是可能要花很多人力時間)。
自有電腦誕生後,電腦科學家就已經將演算法放上電腦運行。只不過是使用上述所講的傳統方式。但這樣的方法並無法有效的處理橫跨各種產業的廣泛問題(保健生技,製造業,航空業,物流,供應鏈,金融業等)。相反的使用精準預先定義好的規則的傳統演算法,機器學習演算法使用的是數學的方式來分析各式各樣的資料(圖片,文字,聲音,影像等)與資料之間的關係來做出推論。
一個機器學習的例子是圖片的辨識,使用稱為監督式學習的機器演算法。我們需要知道圖片中的物體是貓或是魚,我們就先將一些圖片分類,這些被我們預先分類的圖片演算法就會根據這些分類來學習。當訓練資料足夠的時候,機器就可以自行分類後續沒有被我們分類到的圖片。另一種範例為非監督式學習,例如我們想知道這個病人會不會有心臟病的可能及何時可能發作。我們可以會將這種已經有心臟病的很多病人的各種類型的資料(年紀,性別,職業,居住地,飲食習慣,運動習慣,種族,家庭病史,健康史等等)輸入後,演算法就會比對這些心臟病病人的資料與該病人相比做出推論。
機器學習來到是因為硬體運算的成本越來越便宜,尤其搭配雲端運算,我們的運算能力可以說近乎無限。而其結果就是新類型的演算法也因而產生。例如預測電動自駕車的零件何時損壞。車上數以百計種類型的感測器資料乘於大量不斷產生的資料,機器學習加上無限的能力讓這個預測成為可能。
傳統上,機器學習通常需要一種特徵工程的作業。特徵工程實作有賴有經驗的資料科學學家與需要被解決問題的領域專家共同合作來確認重要的資料與資料的呈現或特徵。機器演算法將會與資料互動幾百次到幾百萬次,在這期間會調整每個特徵的重要程度(也就是權重)直到可以從輸入資料正確(盡可能的正確)的推斷出輸出資料(例如:自駕車的零件何時損壞)。這個被訓練好的機器演算法其實就是一組權重特徵,能夠對任何輸入的資料做出正確的資料輸出。上述範例中,當演算法決定好權重時也已經決定好人類分析師定下的特徵了。
深度學習
深度學習是一個擁有巨大潛力的機器學習下一個子集合。我們在之前的機器學習說過,人類是需要對其演算法做特徵工程的。所以還是需要一堆的資料科學家與領域專家來協助。但在深度學習中,特徵工程不再由人類來執行,而是由演算法來執行。
這是一個重大的進步。因為特徵工程只能被用來解決一些特定的問題,而無法解決需多其他AI類型的問題。因為人類(資料科學家與領域專家)不可能預先辨識到所有重要的資料特徵。例如自駕車在行駛的影像辨識,車輛需要辨識的物體有多少(哪可是非常大量的),物體可能的形狀,大小,顏色,亮度,距離,視角等等的狀況。對人類而言不可能預先定義到所有的特徵。針對這一類無法預先知道所有特徵的問題,深度學習採用了一種稱為神經網路的技術,這是根據模擬人類大腦神經網路運作的方式。
深度學習使電腦能夠從巢狀(nested)概念的簡單層次結構中構建複雜的概念。我們可以想像成是一系列的鍊式演算法。在這個結構的每一層中都會進行一種連續的推論,直到最後一層產出結論。回到自駕車的影像辨識系統要辨識其他車輛的作業,深度學習的神經網路一開使會被餵養大量的圖片資料,包含車子與不是車子的圖片。神經網路中的每一層都會分辨圖片上不同的元件 — 逐步的辨別一些車子的抽象性概念,像是車子的後照鏡,擋風玻璃,輪胎,車牌等可以辨識成一輛車的各部件。完成訓練之後,系統會被開始輸入之前沒看過的照片來判斷圖片中的是不是車子的準確度到底是多少。
上述的案例只是其中一種應用。還有很多商業上的應用可供使用,例如聲音辨識功能,工廠產線的針對不良品的影像辨識,Google與Amazon的語音助理等等都是這一類的應用。最重要的是深度學習不需要太多的資料科學家參於資料的特徵工程作業。
隨著電腦運算能力的逐漸強大並且其運算能力的費用逐步往下,處理資料的能力也會越來越強大。我們可以預期將會有更多的應用會使用AI,並把AI功能散佈到所有具計算能力的電子產品中。
IoT物聯網
第四項驅動數位轉型的就是物聯網。其基本概念能很簡單,就是把具運算能力與通訊能力的所有設備通通連上網路,以此來收發資料。
看起來好像就是只有這樣而已,但是能達到萬物聯網的真實的情形是,具有微處理與通訊處理能力的設備變得越來越便宜。而且網路通訊也變得越來越快並且變得比以前更便宜。今天我們可以將AI的演算法佈署在這一些具有運算能力的各項小型甚至超小型的設備上而不是在電腦機房中,我們稱為邊緣運算。像是車輛,無人機,工業感測器等等。而因為這個關係,雲端運算得以延展它的網路邊界。這些IoT設備能夠產生資料,處理資料甚至開始分析資料。
每一個IoT裝置開始變得有智慧並且能互相溝通,意味著整體透過物聯網的方式來運作將變得更有效能與效率,就像是每個IoT設備上的小型AI系統與雲端運算上的大AI系統的連結與溝通產生更高效率運作方式。像是智慧電網,智慧城市等就是一個很好的例子。可能在不久的未來人類身上的服飾都會各項監控人類身體狀況的IoT裝置,不斷將數據傳回智慧醫療系統中,我們也終將變成IoT的一環。
技術整合
前面介紹了數位轉型的四種必要技術 — 雲端運算,大數據,人工智慧,物聯網。看起來每一種技術都很厲害,但卻也為組織帶來的新的挑戰 —
絕大部分的企業組織在整合這些技術時都不免地想要自己從頭到尾的實現這些。但老實說這四種技術在市面上,不管是商用的或開源的。從自建雲端平台到使用公有雲,要用哪種開發框架,要用哪種平台技術可能就要搞很久。組織內每個團隊的技術人員看法都還可能不同,光是爭論也會花很多時間,一段時間過去後可能連我們想要製作出來產品或服務的原型都還沒看到。
企業組織該如何整合這些技術呢?我們需要一種新的技術堆疊(technology stack)。實現將雲端運算、大數據、人工智慧和物聯網結合在一起的完整的下一代企業平台的技術要求非常廣泛。它們包含以下10種核心需求:
- 資料聚合(Data aggregation) : 擷取,整合,與標準化從任何來源的任何種類的資料,包括內部與外部系統當然也包含感測器網路來的資料。
- 多雲運算(Multi-Cloud Computing):啟用具成本效益,彈性,足夠擴展力的電腦運算與儲存並且能結合任何形式的公有雲與私有雲。
- 邊緣運算(Edge Computing): 在邊緣設備(edge device)上啟用低延遲本地處理和 AI 預測和接口,支援回應即時資料輸入的即時決策或行動(例如自駕車判斷前方路況有危險時要馬上提下來)。
- 平台服務(Platform Service): 為持續不斷的資料處理、時空處理(temporal and spatial processing)、資訊安全、資料持久化等提供全面和必要的服務。
- 企業語義模型(Enterprise Semantic Model): 就是企業組織內所有人溝通的話要讓大家都聽得懂,以便簡單和加快應用程序的開發。
- 企業微服務(Enterprise Microservice): 提供基於 AI 的軟體服務的綜合目錄,使開發人員能夠快速構建利用最佳組件的應用程序。
- 企業資料安全(Enterprise Data Security): 提供足夠強健的加密,使用者驗證與授權機制。
- 使用人工智慧和動態優化演算法進行系統模擬:啟用完整的應用程式生命週期,包含開發、測試和部署
- 開放平台(Open Platform): 支援多種開發語言,標準介面支援(APIs),開源式的機器學習與深度學習函式庫,與第三方的資料視覺化工具。
- 協同開發的通用平台: 讓開發人員,資料科學家,分析師其他團隊成員能夠在通用的框架協定中協同作業與一組通用的工具箱,以便加速應用程式的開發,部署,與維運。
這些要求通過“模型驅動的架構(Model-Driven architecture)”得到了特定的解決方式。模型驅動架構通過使用獨立於平台的模型來定義軟體系統 — — 也就是說,模型獨立於特定雲端平台提供商提供的底層基礎設施服務,無論是 AWS、Azure、Gopogle還是其他任何CSP。然後模型會自動轉換為一個或多個特定於雲端平台的實現。這意味著開發人員無需擔心應用程式將使用哪些底層組件或應用程式將運行哪個雲端平台。因此,借助模型驅動的架構,可以比其他方法更快地配置和部署 AI 和 IoT 應用程式,由三到五名軟體工程師和資料科學家組成的小型團隊。
模型驅動的架構簡化並加速了開發,因為它提供了一個“特定領域模型(Domain-specific model)”,使軟體工程師只需使用傳統開發方法所需的一小部分代碼,即可對其 AI 和 IoT 應用程式的組織的業務邏輯進行編碼。
由此產生的好處是巨大的。由開發人員和資料科學家組成的小型團隊可以在短短 10 週內開發生產 AI 和 IoT 應用程式。大型專案通常需要 12 到 16 週的時間,從設計和開發到測試和現場生產部署。