企業的數位轉型-Part5大數據

隨著電腦處理速度與儲存能力的增加,處理與儲存大量的資料急已經成為事實。對大數據的大部分討論都集中在這種資料增長的重要性上,但這只是整個故事的一部分。

在企業的數位轉型中關於大數據最重要的不同在哪裡呢?

不同在於現在我們可以分析與儲存企業內所有產生的資料,不論資料的來源,格式,產生的速度,結構化或非結構化等等。大數據能讓我們有能力集合所有的資料集(也可以包括外部資料)把它變成一個超級資料集,並且將它倒進一個先進的AI演算法中。

資訊理論的創始人克勞德·向農(Claude Shannon)於1948年在貝爾實驗室首度發了資訊理論。克勞德提出了二進位算數(我們叫它 bit),二進位算數只有0跟1。而這些是資訊理論的基本單位,也就是說機器其實只認識0跟1這兩種數字。當我們要機器進行減法時它其實是加上負數。而當用乘法時,它是不斷的進行加法。而上述的這一切運算都是在極高速的狀況下運作的。而現今很高階的機器也只會進行了極其複雜的"加法運算"

使用二進位算數我們可以呈現任何的數字。1960年代由電報編碼所發展出來的ASCII編碼系統能讓我們呈現任何的字元或詞彙。

隨著資訊理論的發展和我們開始積累越來越多的大型資料集,一種規格被發展出來來描述這種狀況,而這就是資訊的基本單位 — “位元Bit”.而八個位元成為一個位元組(Byte),而我們計算電腦的儲存能力就以此單位發展。詳細的規格單位可參考此維基百科的解釋

從這個角度來看,美國國會圖書館的資訊量約為15TB。而今日企業的資料量也很少看到PB規模的資料。而谷歌, 亞馬遜, 與微軟他們自己本身的資料量卻是EB規模的。而我們所說的大數據則是要分析與儲存PB到EB等級的規模。

關於運算能力和由此產生的電腦可以解決的問題的複雜性,存在三個基本限制。 這些與

  1. 可用的存儲容量
  2. CPU/GPU 可以添加的大小以及
  3. CPU/GPU 可以執行加法的速率有關

在過去的 70 年中,前面三種限制的容量都急劇增加。

我們在Part3-靈活的雲端中談到,因為硬體越來越便宜而且其處理愈儲存能力也隨之變高。公有雲端業者得以提供近乎無限的運算與儲存能力。這讓企業得以處理過去需要非常高昂的代價才能處理的問題,現在只要很低的代價就可以解決。

哪這與我們所說的大數據有何關聯呢?在過去的電腦運算能力的三個限制下,若我們要實行數據分析,企業都會採用統計上的抽樣運算。而這種方式是無法處理整個資料集的。為了達到資料的正確性我們可能需要對資料集進行不斷的抽樣與推論並且會有其抽樣錯誤與分析資料信賴程度的問題。

大數據的重要性不在於我們正在處理的資料集的大小,而在於資料集的完整性和沒有抽樣錯誤。 憑藉現今普遍可用的運算和存儲容量,我們可以連結、存儲和處理與正在解決的問題相關的完整資料集。 例如,這可能與我們想要解決台灣人口的病史和基因組序列的精準醫療的機會有關。

當資料是足夠完整時,它讓我們能解決以前從來無法解決的大範圍問題。我們可以建立高度準確的預測引擎來產生具備高度可靠的分析結果。而這種結果又催生了AI。而這就大數據的保證。

大數據雖然改變了遊戲規則,但在管理大數據與建立與佈署大規模的AI還有以IoT服務為燃料(資料)都變成一個極為複雜的挑戰。本篇我們將討論大數據在真實世界的衝擊與實際使用大數據的數位轉型案例,以及圍繞利用大數據的重大挑戰。為了從大數據取得價值,組織必需適應新的工作流程與技術。

關於大數據,現有的企業相對於新創公司或產業的新進者有一些優勢 — 哪就是企業已經儲存的長久的歷史資料並且有源源不斷的資料正在產生。當然這些現有企業仍然有大數據上的一些挑戰 — 如何存取,統整與萃取這些大量的資料。但現有企業在這一點上依然在大數據上領先新創與新進者。

從西元前3300年在美索不達米原平原,人類第一筆有紀錄的資料開始。從哪時到現在不管資料的載具是甚麼,人類一直在不停地產生資料(如亞馬遜創辦人貝佐斯說的:"我們信仰上帝,凡人皆攜數據而來"),而其產生的資料量與速度也隨著人類科技的進步不斷的被強化。而從以前被限制其資料處理能力直到今天在雲端上有著近乎無限的運算與儲存能力。

大數據的演化

大約在2005年左右,大數據一直被技術人員當作技術問題來處理。而我們在part3提到大數據概念是在約20多年前於天文學及經濟領域被提及,在哪時大數據意味著資料大到無法用傳統的電腦架構來處理。而這種傳統的架構我們稱之為放大(scale-up),也就是在一台或一組電腦中不斷對其硬體加到其上限為止。而就算這樣也無法處理關於大數據的資料。

相反的,另一種架構被提出稱為”向外擴展(scale-out)”,這是用數以百計甚至千計的電腦同時平行處理大數據的資料量。這種方式理論上月多台電腦加入能處理的資料量就越大,而且這種架構可以用便宜的電腦來組成而不需要像scal-up架構的電腦哪樣昂貴。以此架構為基礎的大數據處理軟體也因此被設計出來,並不斷的進化包含我們已知的Hadoop與MapReduce。

2001年 META Group的分析師 Doug Laney對大數據定義出了三種主要特徵分別是:

  1. Volume(體積),意指資料的大小(多少GB/TB/PB)
  2. Velocity(速率),資料產生的速度(可能是資料改變,到達,也可以用每秒多少byte, 訊息來衡量)
  3. Variety(種類),指資料的格式,形式,儲存方式與解讀方式。

資料的大小,速度與型態

隨這大數據的在這三個維度(大小,速度,型態)的進化與成長。對企業的領導者來說最重要的是解這三個維度將如何讓企業的業務增加其價值。

大小

整個世界的資料量在過去25年來成指數型的成長,在1997年時只有2.5TB到2020年已有44ZB,在可以預見的未來將會繼續的成長。而這種快速的資料成長也同樣的發生在企業內部,在2016年時企業的資料平均的總量約在350TB左右,而IDC預估每年將會以52%的速度持續增長。企業如今能同時存取不斷成長的企業內部與外部的資料,而這些資料將會是資料的吞噬者 — AI服務最好的食物,並以此為基礎尋找出資料內隱藏的模式與產生最佳的預測。

速度

現今資料產生速度最快的莫過於到處存在的物聯網服務了。而這個速度產生的資料量又足以強化AI演算法,更高頻率的資料也可以驅動更好的 AI 效能。例如,以時間序列收到電動車零件的遙測資料,每分鐘收到60筆與收到1筆資料的強度可以讓AI做出更好的預測維護 — 預知何時零件應該進行更換。

型態

現今的資料產生呈現一個金字塔型態: 影像,圖片,監測資料,人類的聲音,手寫的資料,短訊,email,文字檔案等等之類的各種資料型態。而這些多種型態的資料基本上分成兩大類 — 結構化與非結構化資料。結構化資料如同我們的Excel 檔案的這種二維的資料表,我們使用的資料庫通常是這種資料的排列方式(行與列)。而不是以這種方式呈現的資料我們就把它歸類於非結構化資料,像是圖片,影像,聲音等。但是這一的資料佔企業總體的資料量從70%-90%都有。企業現在可以依靠AI將這兩類的資料全部帶入分析,並從這兩類的資料產生價值。

例如,一家石油和天然氣公司為其油田資料集創建了統一、聯合的圖像,這些資料集結合了來自眾多來源和各種格式的資料; 來自歷史資料記錄應用程式的遙測(記錄時間序列產生資料的軟體); 包含歷史地質分析的 Excel 檔案; 來自預先存在的資產系統的設備資產記錄; 地理資訊系統經緯度檔案等。 統一的Data View將增加來自每口油井的生產資料、來自油井檢查的歷史和正在進行的圖片以及其他項目。 目標是針對多個狀況的所有這些資料應用AI來進行預測性維護和生產優化作業。

大數據對現代企業的允諾

大數據的能力已經可以針對任何大小,速率,型式的資料進行收集,儲存,處理與分析,而這也為AI的廣泛使用和應用奠定了基礎。企業可以收集無窮盡的資料來源。現代企業的資料來源經過這些年的設備與流程的數位化後可以收集企業內所有的且無止盡的活動資料(人為的,非人為的)。

今天,企業可以使用所有的技術方式來收集與儲存資料以此來強化與豐富既有的企業內的所有系統。例如,保險公司與礦業和酒店公司合作,為員工添加感測器,以檢測異常的身體動作,從而有助於預測員工受傷並避免索賠。

同樣的新的資料來源也開始為企業所使用。例如,銀行業使用偵測信用卡的詐欺事件的程式服務,詐欺調查者運用了機器學習的技術來預測詐欺事件的可能性。而這個想法是,隨著時間的推移,通過人類智慧增強的 機器學習預測能力將得到改善。

企業現在也開始引入外部的資料內部資料整合,在這個聯合起來的資料中找到對企業有興趣的資料關聯模式。例如零售業或外送業可能整合天氣資料來進行預測,或是銀行業整合政府的Open Data對客戶或總體經濟進行預測。

大數據的能力讓企業可以開始積極探索企業內外部從未想到新的資料來源,以此來擴展原來的資料邊界。而企業擴展了資料邊界後所得到的資料又會被AI進行企業的業務加值。

大數據對現代企業的挑戰

雖然大數據帶給企業這麼多的效益,但同時也帶來了一些挑戰。企業要面對眾多的系統,資料來源,資料格式,與可能的應用。資料要產生價值需要有人了解這些全部的資料,理解企業內的IT系統如何被使用來支援這一些資料,與這些資料對企業的業務應用與業務價值的關聯處在那裡。

解決這個問題的唯一可行的方法是結合正確的工具、運算技術和組織流程。 大多數企業最初將需要外部專業知識來開始他們的大數據和AI計劃。以下為現代企業會面臨到的五個關鍵挑戰。

1.處理多種企業資源系統

一個大型企業的系統服務可能有上千個以上,從ERP,CRM, HR系統,財會計統,薪資系統,供應商系統,資產管理系統,驗證系統等等。這些成千上百的系統都是企業運作的一部分,而它們也都會產生資料,管理它們本身就一項大工程更何況整合這一些系統產生資料。整合這一些資料又是另一種大工程,可能有些系統在原來的設計上沒有想到資料交換或整合這又增加了整合上的困難。

這個整合的困難在於這些不同的系統產生的格式可能各有不同,使用跨不同的資料來源可能會產生資料不匹配或重複。通常,企業能夠將企業內外部的資料應該如何關聯的邏輯描述整合起來。這些描述採用對象關係模型(object relationship model)或實體關係圖(entity relationship diagram)的形式。 但在實做中,集合這些底層資料以建立可通過同一種對象關係模型存取的資料的未經驗證、整合和更新的圖像可能是一項大工程。 映射(Mapping)和編碼(coding)不同資料和所需行為之間的所有相互關係可能需要IT人員數週甚至數月的努力。

2.高頻率產生的資料的整合與認知

管理眾多的系統本身已經是一項複雜的作業了,而另一個更困難的作業變得越來越困難的是: 如何在連續不斷與即時產生的資料(我們也可以說是這是串流資料)在其中認知到它的業務價值。這一類的資料本身其實很少具備業務價值,其本身的價值最多是企業在營運上的異常偵測。而要產生價值則必須聯合其他的資料。

例如,天氣資料就是一種高頻率的產生的資料。資料的本身並不具備業務價值,最多就是讓人們當參考。然而若將這一類的資料應用在外送,零售,餐飲等行業,再結合企業內部的歷史資料哪就可以產生其業務價值。例如預測未來一周的來客數並對其商品進行必要的調整。

而要建立這樣的服務就需要有能力能及時存取這些串流資料(具時間序列),並能及時搜尋,及時分類,及時分析的能力。

3.使用數據湖

2000年左右,Yahoo的工程師建立了一套分散式儲存與運算的框架來達成大規模平行處理資料的方法。於是誕生了HDFS(Hadoop Distributed File System)與Hadoop MapReduce框架,這是一套開源系統。而這一套框架在這20年來席捲了所有企業的IT部門,有些軟體公司則開市把它進行商業化的版本,如Hortonworks, Cloudera, 或MapR。而在這一框架下也產生了許多應用軟體,這些軟體絕大部分都可利用與HDFS高度的整合進行大數據儲存與分析。而HDFS的儲存基本上硬體數量可以一直擴增(scale-out)可以儲存的資料就近乎無限而且任何格式都可以儲存。

不過目前這一個Hadoop技術大都只有較大的企業可以進行,多數的中小企業仍然較少採用。因為這個會有技術上的,實行上的與部署上的挑戰全部都是實現大數據分析的困難點。但不論企業的大小為何,實際上儲存這麼多大量且不同的資料位於同一個IT基礎設施中並不會減少任何資料的複雜性。資料其本身只是存在於一個地點,而每種資料在這時還是一個個的穀倉(系統),一個只能自己(系統)能解讀的資料。而對AI服務而言,將這些不同的資料萃取出其價值需要足夠能力來駕馭這些資料集,像是對資料正規畫與去重複性等。而這些則是Hadoop所沒有的。

4.資料的一致性,參照完整性與持續的被使用

企業的第四個挑戰就是讓現有的資料呈現為統一的,可被組合的樣態。持續保持這個樣態是最新的,並且能夠讓所有的分析人員與工具無縫接軌的使用仍然是一個複雜的作業。每個系統傳送的資料速率不盡相同,格式也不盡相同甚至有時可能因為來源系統的異動而有所變更。也可能因為網路的問題來源系統傳送資料的順序與接收的順序不符合。更重要的問題是要選擇更新哪些分析以及何時更新,以支援企業的作業流程。

舉例來說一個電信業者要進行客戶流失的預測,他們需要一個統一的資料表來進行預測。然而資料表內資料產生的速度不盡相同,如下表範例

我們可以看到每種資料產生的速率差異很大,這讓我們在進行大數據分析時很容易產生錯誤或誤解。比如說,客服中心在紀錄客戶的不滿意資料時不小心錯誤的呈現客戶的編號,或是紀錄的內容無法使用。更重要的是這個客戶流失預設模型隨後在這些資料上整合並分析,並且持續一直往後更新,哪我們就會看到時間越久資料就會錯得越離譜。

企業需要理解與計畫這些在數位轉型的過程中的挑戰。我們需要正確的工具來針對這些性質與時間相異的資料進行無縫接軌的整合,確保資參照的完整性並且能自動化的針對這些資料集有異動時可以更新到我們的分析結果中。

5.讓新工具與新技能跟上新需求

隨著企業內資料的可用性和存取能力的增長,所需的想對應技能也同時增長。例如資料分析師習慣使用Tableau這種資料視覺化的工具來製作報表,也將會需要使用機器學習來預測企業業務上的KPI.另一方面,企業的中階管理層在電子表格(如Excel)工具方面擁有數十年的熟練程度,現在需要新的技能和工具來驗證他們的分析來進行這些預測工作。

企業的IT與分析部門需要提供給企業內具有不同層級的數據分析能力的人相對應的工具來處理有著使用統一格式的大量資料集,並進行分析跟預測。對著非專家等級的員工提供容易上手且學習曲線短的工具,再搭配專業能力的數據分析人員進行困難的資料整合與深度分析的作業。關於資料分析的組織架構與模型理論可參考Snowflake 雲端資料分析

大數據與新技術堆疊

成功的數位轉型關鍵取決於企業從大數據中提取價值的能力。 雖然大數據的管理需求很複雜,但下一代技術的可用性為企業提供了解決這些挑戰所需的工具。 在Part 10 中,我們將更深入地描述這種新技術堆疊如何解決大數據管理功能。 有了這種基礎能力,企業將能夠釋放人工智會的變革力量 — — Part 6的主題。

--

--

運用"雲端服務"加速企業的數位轉型願景
運用"雲端服務"加速企業的數位轉型願景

Written by 運用"雲端服務"加速企業的數位轉型願景

我們協助您駕馭名為"雲端運算"的怪獸,馴服它為您所用。諮詢請來信jason.kao@suros.com.tw. https://facebook.com/jason.kao.for.cloud

No responses yet