SRE生存指南:系統中斷響應與正常運行時間最大化

馮文輝

  • 出版商: 電子工業
  • 出版日期: 2019-09-01
  • 售價: $474
  • 貴賓價: 9.5$450
  • 語言: 簡體中文
  • ISBN: 7121371766
  • ISBN-13: 9787121371769
  • 相關分類: DevOps

立即出貨

買這商品的人也買了...

相關主題

商品描述

站點可靠性工程(Site Reliability Engineering,簡稱SRE)是一個令人興奮的新興領域,它專註於如何確保系統穩定、可靠地運行。本書基於一個金字塔層次結構模型,深入淺出地介紹了關於SRE 的方方面面,涉及監控、事故響應與回顧、測試與發布、容量規劃、開發、用戶體驗設計,以及貫穿其中的溝通技巧。本書是SRE 工程師、DevOps 工程師、運維工程師和系統管理員不可或缺的參考資料;軟件架構師、軟件工程師、用戶體驗設計師也能從本書中獲取關於SRE 的相關知識。

目錄大綱

前言 xxxi

序言 xxxv

第Ⅰ部分概覽

第1 章介紹 2

管理員模式 2  

Google 的解決之道:SRE 4

SRE 方法 6

確保長期關注研發工作 6

在保障服務SLO 的前提下大化迭代速度 7

監控 8

應急事件處理 8

變更管理 9

需求預測和容量規劃 9

資源部署 10

效率與性能 10

小結 10

第2 章Google 生產環境:SRE 視角 11

硬件 11

管理物理服務器的管理軟件 13

管理物理服務器 13

存儲 14

網絡 15

其他軟件 16

分佈式鎖服務 16

監控與警報 16

軟件基礎設施 17

研發環境 17

莎士比亞搜索:一個示範服務 18

用戶請求的處理過程 18

任務和數據的組織方式 19

第Ⅱ部分指導思想

第3 章擁抱 23

管理 23

度量服務的 24

服務的容忍度 25

辨別消費者服務的容忍度 26

基礎設施服務的容忍度 28

使用預算的目的 30

預算的構建過程 31

好處 32

第4 章服務質量目標 34

服務質量術語 34

指標 34

目標 35

協議 36

指標在實踐中的應用 37

運維人員和終用戶各關心什麼 37

指標的收集 37

匯總 38

指標的標準化 39

目標在實踐中的應用 39。。。。。。。。