SRE — 減少過勞
May 1, 2024
- 什麼是過勞?
- 為甚麼過勞不好
- 改善過勞
什麼是過勞?
維運團隊的過勞分為以下幾種因素
手動作業
- 全手動或半手動的佈署作業
- 登入到Infrastructure中去檢查某些事
- 或是一直變更密碼
重複性作業
- 一直在做同樣的測試,無限輪迴
- 每天都要回應相同的告警
- 每天都要處裡其他部門的事情,以至於要一直中斷重要的待辦事項
機械化作業
- 會議室中的生產佈署會議
- 設備/組件的手動初始或重置
- 建帳號
臨時性作業
- 經常使用臨時性解法
- On-call式的回應
沒有長期價值的作業
- 例如從某些系統拉取資料
Linear scaling
- 手動縮放Infra 資源
但是,過勞不是指我不喜歡做某些事的理由。
例如為新進員工設定新電腦、研究組織服務的新型告警的配置或是將作業標準化。組織的正式會議、部門的事項等團隊與組織層級的事務。
工程破產(Engineering Bankruptcy):
如果組織沒有注意,組織中的過勞程度可能會增加到組織沒有足夠的能力來阻止團隊及人員的崩潰。
為甚麼過勞不好
改善過勞
組織要改善過勞需要投入技術研究的時間,減少過勞所需的技術研究作業通常的選擇有:
- 建立外部自動化(external automation) —
例如在產品/服務的邊界外建立腳本與自動化工具 - 建立內部自動化(internal automation) —
例如在產品/服務中的一部分提供自動化 - 或者強化產品/服務來減少人為的介入
哪麼我們需要自動化每件事物嗎?答案應該視乎:
- 該作業執行的頻率 — 如果一年只有幾次,哪麼不應該花時間去自動化該作業
- 該作業執行所耗費的時間
將以上兩個因素做成一個二維圖表就很容易的判斷(如下範例圖),我們就可以把(執行頻率 x 耗費時間) — 自動化所投入的時間= 省下的時間。時間對組織與員工來說一種寶貴的資源。
如同我們在此系列文章所提到的,SRE團隊/人員必須有50%的時間投入新技術的研究與實行以減少過勞的現象與新功能的增加。