IT的自動化維運與六個標準差
在我們討論IT自動化維運如何應用六個標準差之前,我們會先介紹六個標準差的一些基本概念。然後將這些概念運用在我們的IT日常作業中,並使用自動化工具來協助我們達成六個標準差的理想。
六個標準差(6 sigma)的概念
所謂六個標準差是一種管理哲學,目的是要使企業的"生產與流程"精簡有效率(streamline),藉以消除錯誤、提振士氣以及節省成本。因為錯誤會產生浪費與重工的情況。而企業的IT運作每天都對其IT系統可能有上千次的變更,從基礎設施的Router/Firewall到代碼。而這些變更有若有錯誤,就會造成企業人力的時間浪費與重工的現象發生。
企業大多數都把重點放在"攻",也就是生產更多更好的產品與服務;但六個標準差側重於"守"的部分,都需要各司其職。只是這個守的部分需要做得更好,減少錯誤率。
六個標準差專有名詞
英文的Sigma是來自希臘字母”σ”,呈現的是標準差(Standard deviation)。標準差衡量的兩個不同的層面:
某件事和某個特定點或是目標有多大的差異;以及某件事與別件事有多大的差別。
例如我們在做IT基礎設施的變更時,每執行多少次會有達不成的目標效果或錯誤發生,像是設定防火牆沒有達到要阻擋的目標(效果)或是執行錯誤(misconfoguration)。
在我們上面Firewall變更流程範例中,標準差衡量的是某一特定流程執行完美工作的能力。標準差的級數增加,所出現的錯誤就越少 — "六"這個數字代表幾近完美的境界。如果我們希望針對企業中的Firewall設置變更每一千次只能有10次的錯誤(這是我們的標準),哪麼只要多於這10次的錯誤就是變異範圍超過了我們的製程能力(process capability)。
標準差,就是判斷工作執行的流程距離理想狀況有多遠,從而量化這個流程有多理想、或是有多糟糕。換句話說,也就是衡量企業在執行工作的流程當中犯了多少錯誤。
怎麼樣才算夠好?
如果是以一個標準差來看,每一百萬次的IT變更操作大概會有70萬次的錯誤,這就是每百萬次的誤差數(DPMO — Defects per million opportunities),也就是每次事情做對的機率只有30%。相信這是任何IT維運的主管無法接受的數字。不過進階到了兩個標準差,機率就會從30%拉升到70%。但這樣的數字在商業世界或IT維運中可能還是無法接受。
一般企業的標準差大概介於3 -4之間,也就是DPMO介於6萬到6千之間。如果我們的IT維運是3.8個標準差,哪我們的IT維運成功率是99%。很多人以為這樣的成功率很夠了,但是在一些關乎人命的事情上卻可能無法接受。99%代表每周有5000個手術程序出錯,或主要機場每天有四場意外。
六個標準差要求的成功率是99.9996% — DPMO只能有3.4次的錯誤。
這樣的要求好像是不可能的任務,不過還是有組織能夠做到,不然可能就會出人命了。但是執行六個標準差只有單單提升作業的品質嗎?非也,六個標準差還可以讓企業降低成本並提升獲利。
大多數的企業認為改善品質需要耗費成本,因此把品質和獲利的平衡視為一種取捨,一種IT系統的穩定度、可用度與企業財務單位之間的拉鋸戰。但執行六個標準差的企業卻是這樣的想法:品質其實可以節省成本,因為IT單位必需修正的錯誤減少,系統的穩定度與可用度大幅上升,內外部客戶對系統的滿意度增加,進而強化客戶的忠誠度。
六個標準差的運作方式其實就是人力與流程力量的結合。特別在IT維運中,這一類的流程需要自動化工具來協助。因為IT的變更步驟通常事涉多個操作與團隊之間的合作。
IT維運
根據上面的六標準差概念介紹我們可以套用在企業的IT運作上,並且使用一些自動化工具來達成我們想要的標準差。但前提是企業已經有準備就緒的人員與設計良好的流程,否則再怎麼好的工具都無法彌補前面兩種的不足。
自動化工具的效益
上面我們提到,一項IT的變更可能事涉需要多個IT人員有多個操作。哪麼光靠SOP文件可以達成組織要的標準差嗎?事實上可能很有難度,因為每個人解讀SOP文件的認知與操作很可能不一樣。而寫出每個版本的SOP文件的人可能的意思也可能詞不達意,哪麼就會造成操作的不一致性。這樣就會產生:
- 不正確性 — 需要事後修正
- 低可靠性 — 因為錯誤的操作造成系統的不穩定性
為了降低不正確性與提升可靠性,我們需要一種機制,這種機制必須有某種形式的自主權,以便它可以自動偵測「故障」並「修復」它們,而無需明確說明(也就是人為介入)。
而本文介紹的CHEF解決方案就可以協助企業IT達成一定程度的維運標準差。它除了一開始讓錯誤率變低之外,就算需要重工也是由系統自動偵測與修復,這將降低我們人員的精力與時間。