SRE 生存指南:系統中斷響應與正常運行時間最大化

馮文輝

買這商品的人也買了...

商品描述

站點可靠性工程(Site Reliability Engineering,簡稱SRE)是一個令人興奮的新興領域,它專註於如何確保系統穩定、可靠地運行。本書基於一個金字塔層次結構模型,深入淺出地介紹了關於SRE 的方方面面,涉及監控、事故響應與回顧、測試與發布、容量規劃、開發、用戶體驗設計,以及貫穿其中的溝通技巧。本書是SRE 工程師、DevOps 工程師、運維工程師和系統管理員不可或缺的參考資料;軟件架構師、軟件工程師、用戶體驗設計師也能從本書中獲取關於SRE 的相關知識。

作者簡介

Nat Welch是一名美國的軟件開發人員。自2005年以來,他一直做著網站構建及運維的工作。他熱愛網站的基礎設施建設,因為這可以支持其他人的創造性努力。2012年,Nat成為谷歌的SRE(Site Reliability Engineering,站點可靠性工程)工程師,並愛上了這個職業。從那時起,他在各種規模的公司工作過,並一直致力於提高網站的可靠性,以幫助開發人員構建可靠的系統。
關於審查者
Pavlos Ratis是HolidayCheck的一名SRE工程師,負責自動化軟件和基礎設施的可靠性。隨著時間的推移,他參與了大量的項目,並參與過從編寫軟件到自動化,管理基於雲的多服務器基礎設施,到開發Web應用程序等很多環節。

目錄大綱

1簡介1


SRE簡史2
SRE是什麼3
關於這本書7
以SRE作為新項目的框架9
小結12


2監控13


為什麼要監控13
檢測應用程序16
度量什麼23
SLIs、SLOs和錯誤預算簡介26
錯誤預算27
收集和保存監控數據29
輪詢應用程序29
推送應用程序32
展示監控信息35
任意查詢35
圖表36
儀表板37
聊天機器人38
管理和維護監控數據38
溝通39
他們知道有監控嗎39
小結40
參考資料41


3事故響應42


什麼是事故43
什麼是事故響應45
警報47
什麼時候發起警報48
怎麼發出警報49
向誰發出警報54
隨時待命55
溝通57
事故指揮系統59
在哪里溝通61
恢復系統61
警報解除63
小結64


4事後回顧65


什麼是事後回顧65
為什麼寫事後回顧報告66
何時寫事後回顧報告68
開展事故分析69
如何寫事後回顧報告71
總結71
影響72
時間73
根本原因74
行動項75
附錄77
停止事後指責77
舉行事後回顧會議79
分析以往的事後回顧報告80
MTTR與MTBF 81
警報疲勞81
討論過去的服務中斷81
小結82
參考資料82


5測試和發布83


測試84
測試內容87
發布100
何時發布101
回滾104
自動化104
持續105
小結106


6容量規劃107


企業財務簡介108
為什麼需要規劃110
風險管理與期望管理111
定義一個規劃112
當前的容量是多少113
何時達到容量極限115
應該如何更改容量119
執行規劃125
架構——性能變化的根源126
技術作為利潤中心和採購128
小結128


7構建工具129


尋找項目131
定義項目133
RDD 133
設計文檔136
項目計劃138
例子139
回顧會與站會141
工作分配142
構建項目143
關於編寫代碼的建議143
關注點分離144
長期工作145
筆記本148
文檔與維護項目149
小結150


8用戶體驗151


設計和用戶體驗簡介155
現實世界的交互設計157
用戶測試160
挑選一種體驗161
設計測試162
尋找要測試的人162
開發者體驗163
工具經驗164
績效預算164
安全性166
身份認證167
授權168
風險概況168
網絡釣魚169
ACM道德準則170
小結171
參考資料172


9網絡基礎173


互聯網173
發送一個HTTP請求175
DNS 175
以太網和TCP/ IP 179
HTTP 186
curl與wget 189
網絡監控工具194
netstat 194
nc 195
tcpdump 196
小結197
參考資料197


10 Linux和雲基礎198


Linux基礎198
一切皆是文件199
進程是什麼206
syscalls 207
構建自己的工具213
雲基礎214
虛擬機215
容器216
負載均衡218
自動伸縮219
存儲219
隊列與發布/訂閱220
伸縮單元221
架構面試示例222
小結226
參考資料226