SRE 生存指南：系統中斷響應與正常運行時間最大化

馮文輝

出版商: 電子工業
出版日期: 2019-09-01
定價: $474
售價: 8.5 折 $402
語言: 簡體中文
頁數: 226
ISBN: 7121371766
ISBN-13: 9787121371769
相關分類: DevOps、DevOps
此書翻譯自: Real-World SRE: The Survival Guide for Responding to a System Outage and Maximizing Uptime

立即出貨

買這商品的人也買了...

~~$880~~ $695

深入淺出設計模式 (Head First Design Patterns)
~~$620~~ $527

大話設計模式
~~$650~~ $507

Continuous Delivery 中文版：利用自動化的建置、測試與部署完美創造出可信賴的軟體發佈 (Continuous Delivery: Reliable Software Releases through Build, Test, and Deployment Automation)
~~$520~~ $410

你所不知道的 JS｜非同步處理與效能 (You Don't Know JS: Async & Performance)
~~$580~~ $458

演算法技術手冊, 2/e (Algorithms in a Nutshell: A Practical Guide, 2/e)
~~$520~~ $410

你所不知道的 JS｜ES6 與未來發展 (You Don't Know JS: ES6 & Beyond)
~~$480~~ $408

鳳凰專案｜看 IT 部門如何讓公司從谷底翻身的傳奇故事
~~$780~~ $616

網站可靠性工程｜Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)-*外觀稍有瑕疵，不介意者再下單
~~$1,280~~ $960

CODE COMPLETE：軟體開發實務指南, 2/e (中文版) (Code Complete: A Practical Handbook of Software Construction, 2/e)
$421

DevOps 和自動化運維實踐
$708

微服務架構設計模式 (Microservices Patterns: With examples in Java)
~~$480~~ $379

分散式系統設計 (Designing Distributed Systems: Patterns and Paradigms for Scalable, Reliable Services)
~~$720~~ $561

Working Effectively with Legacy Code : 管理、修改、重構遺留程式碼的藝術 (中文版)
~~$550~~ $429

0 陷阱！0 誤解！8 天重新認識 JavaScript！（iT邦幫忙鐵人賽系列書）
$474

Prometheus 監控實戰
$327

DevOps入門與實踐
~~$590~~ $466

介面測試自動化極緻應用：Postman + Jenkins + Github 一路整合
~~$680~~ $530

持續交付 2.0：實務導向的 DevOps
~~$680~~ $537

異形般強大的監控系統：Prometheus 掌控主機、VM、容器及 K8S
$534

超大流量分佈式系統架構解決方案：人人都是架構師2.0
~~$780~~ $616

網站可靠性工程工作手冊｜導入 SRE 的實用方法 (The Site Reliability Workbook)
~~$780~~ $616

基礎架構即程式碼｜管理雲端伺服器 (Infrastructure as Code: Managing Servers in the Cloud)
~~$680~~ $537

軟體架構原理｜工程方法 (Fundamentals of Software Architecture: A Comprehensive Guide to Patterns, Characteristics, and Best Practices)
~~$560~~ $436

Kent Beck 的測試驅動開發：案例導向的逐步解決之道 (Test-Driven Development: By Example)(TDD)
$612

大型網站運維：從系統管理到 SRE

商品描述

站點可靠性工程（Site Reliability Engineering，簡稱SRE）是一個令人興奮的新興領域，它專註於如何確保系統穩定、可靠地運行。本書基於一個金字塔層次結構模型，深入淺出地介紹了關於SRE 的方方面面，涉及監控、事故響應與回顧、測試與發布、容量規劃、開發、用戶體驗設計，以及貫穿其中的溝通技巧。本書是SRE 工程師、DevOps 工程師、運維工程師和系統管理員不可或缺的參考資料；軟件架構師、軟件工程師、用戶體驗設計師也能從本書中獲取關於SRE 的相關知識。

作者簡介

Nat Welch是一名美國的軟件開發人員。自2005年以來，他一直做著網站構建及運維的工作。他熱愛網站的基礎設施建設，因為這可以支持其他人的創造性努力。2012年，Nat成為谷歌的SRE（Site Reliability Engineering，站點可靠性工程）工程師，並愛上了這個職業。從那時起，他在各種規模的公司工作過，並一直致力於提高網站的可靠性，以幫助開發人員構建可靠的系統。
關於審查者
Pavlos Ratis是HolidayCheck的一名SRE工程師，負責自動化軟件和基礎設施的可靠性。隨著時間的推移，他參與了大量的項目，並參與過從編寫軟件到自動化，管理基於雲的多服務器基礎設施，到開發Web應用程序等很多環節。

目錄大綱

1簡介1

SRE簡史2
SRE是什麼3
關於這本書7
以SRE作為新項目的框架9
小結12

2監控13

為什麼要監控13
檢測應用程序16
度量什麼23
SLIs、SLOs和錯誤預算簡介26
錯誤預算27
收集和保存監控數據29
輪詢應用程序29
推送應用程序32
展示監控信息35
任意查詢35
圖表36
儀表板37
聊天機器人38
管理和維護監控數據38
溝通39
他們知道有監控嗎39
小結40
參考資料41

3事故響應42

什麼是事故43
什麼是事故響應45
警報47
什麼時候發起警報48
怎麼發出警報49
向誰發出警報54
隨時待命55
溝通57
事故指揮系統59
在哪裡溝通61
恢復系統61
警報解除63
小結64

4事後回顧65

什麼是事後回顧65
為什麼寫事後回顧報告66
何時寫事後回顧報告68
開展事故分析69
如何寫事後回顧報告71
總結71
影響72
時間73
根本原因74
行動項75
附錄77
停止事後指責77
舉行事後回顧會議79
分析以往的事後回顧報告80
MTTR與MTBF 81
警報疲勞81
討論過去的服務中斷81
小結82
參考資料82

5測試和發布83

測試84
測試內容87
發布100
何時發布101
回滾104
自動化104
持續105
小結106

6容量規劃107

企業財務簡介108
為什麼需要規劃110
風險管理與期望管理111
定義一個規劃112
當前的容量是多少113
何時達到容量極限115
應該如何更改容量119
執行規劃125
架構——性能變化的根源126
技術作為利潤中心和採購128
小結128

7構建工具129

尋找項目131
定義項目133
RDD 133
設計文檔136
項目計劃138
例子139
回顧會與站會141
工作分配142
構建項目143
關於編寫代碼的建議143
關註點分離144
長期工作145
筆記本148
文檔與維護項目149
小結150

8用戶體驗151

設計和用戶體驗簡介155
現實世界的交互設計157
用戶測試160
挑選一種體驗161
設計測試162
尋找要測試的人162
開發者體驗163
工具經驗164
績效預算164
安全性166
身份認證167
授權168
風險概況168
網絡釣魚169
ACM道德準則170
小結171
參考資料172

9網絡基礎173

因特網173
發送一個HTTP請求175
DNS 175
以太網和TCP/ IP 179
HTTP 186
curl與wget 189
網絡監控工具194
netstat 194
nc 195
tcpdump 196
小結197
參考資料197

10 Linux和雲基礎198

Linux基礎198
一切皆是文件199
進程是什麼206
syscalls 207
構建自己的工具213
雲基礎214
虛擬機215
容器216
負載均衡218
自動伸縮219
存儲219
隊列與發布/訂閱220
伸縮單元221
架構面試示例222
小結226
參考資料226

SRE 生存指南：系統中斷響應與正常運行時間最大化

馮文輝

買這商品的人也買了...

商品描述

作者簡介

目錄大綱

類似商品

最後瀏覽商品 (4)