可觀測性工程 Observability Engineering: Achieving Production Excellence

Charity Majors,George Miranda,Liz Fong-Jones 譯 觀測雲團隊

  • 出版商: 機械工業
  • 出版日期: 2023-06-01
  • 定價: $654
  • 售價: 8.5$556
  • 語言: 簡體中文
  • 頁數: 272
  • 裝訂: 平裝
  • ISBN: 7111729099
  • ISBN-13: 9787111729099
  • 已絕版

相關主題

商品描述

本書基於作者在可觀測性領域的豐富實踐經驗撰寫而成,旨在幫助讀者在工程團隊內開展可觀測性實踐。
書中深入分析了在軟件交付和運營的背景下可觀測性意味著什麼、如何構建基礎組件來實現可觀測性、
可觀測性對團隊動力的影響、可觀測性規模化的考慮因素,以及在組織中建立可觀測性文化的實用方法,
還通過豐富的實例展示瞭如何利用可觀測性改進現有的工作,
並提供了從傳統工具(如度量工具、監控工具和日誌管理工具)遷移的實際注意事項。

目錄大綱


前言
第一部分可觀測性的路徑
第1章什麼是可觀測性
1.1 可觀測性的數學定義
1.2 把可觀測性應用到軟件系統
1.3 關於軟件可觀測性的錯誤描述
1.4 為什麼現在可觀測性很重要
1.5 使用指標進行調試與使用可觀測性進行調試的對比
1.6 使用可觀測性進行調試
1.7 可觀測性適用於現代系統
1.8 結論
第2章可觀測性和監控之間的調試實踐有何不同
2.1 監控數據如何用於調試
2.2 可觀測性如何實現更好的調試
2.3 結論
第3章不通過可觀測性擴展系統的經驗教訓
3.1 關於Parse的介紹
3.2 Parse的擴展實踐
3.3 向現代系統演進
3.4 向現代化實踐變革
3.5 在Parse的轉變實踐
3.6 結論
第4章可觀測性與DevOps、SRE和雲原生的關聯
4.1 雲原生、DevOps和SRE簡介
4.2 可觀測性:調試方式的過去與現在
4.3 可觀測性增強了DevOps和SRE的實踐
4.4 結論
第二部分可觀測性基礎
第5章結構化事件—可觀測性的構建塊
5.1 通過結構化事件進行調試
5.2 指標作為構建塊的局限性
5.3 傳統日誌作為構建塊的局限性
5.4 在調試中有用的事件屬性
5.5 結論
第6章將事件拼接成鏈路
6.1 分佈式鏈路追踪及其重要性
6.2 鏈路追踪的組件
6.3 硬編碼探針構建鏈路追踪
6.4 將自定義字段添加到鏈路span
6.5 將事件拼接到鏈路中
6.6 結論
第7章遵照OpenTelemetry的探針
7.1 探針簡介
7.2 開源探針標準
7.3 使用基於代碼的示例的探針
7.4 結論
第8章通過事件分析實現可觀測性
8.1 從已有條件調試
8.2 從第一性原理調試
8.3 AIOps的誤導性承諾
8.4 結論
第9章可觀測性和監控的融合
9.1 監控適合的地方
9.2 可觀測性適合的地方
9.3 系統與軟件注意事項
9.4 評估你的組織需求
9.5 結論
第三部分團隊的可觀測性
第10章在團隊中應用可觀測性實踐
10.1 參與社區
10.2 從最大的痛點著手
10.3 購買代替自建
10.4 反复完善你的探針
10.5 溫和改進,積極復用
10.6 全力衝刺
10.7 結論
第11章可觀測性驅動開發
11.1 測試驅動開發
11.2 軟件開發生命週期中的可觀測性
11.3 從哪裡開始調試
11.4 微服務時代的調試
11.5 探針如何提高可觀測性
11.6 可觀測性左移
11.7 利用可觀測性加快軟件交付
11.8 結論
第12章使用SLO來提高可靠性
12.1 傳統監控方法造成危險的告警疲勞
12.2 閾值告警只適用於“已知的未知”情況
12.3 用戶體驗是一顆北極星
12.4 什麼是SLO
12.5 結論
第13章處理和調試基於SLO的告警
13.1 在錯誤預算消耗完之前發出告警
13.2 將時間定義成一個滑動窗口
13.3 預見性地創建預測消耗告警
13.4 使用SLO與時間序列數據的可觀測性數據
13.5 結論
第14章可觀測性與軟件供應鏈
14.1 為什麼Slack需要可觀測性
14.2 探針:共享客戶端庫和維度
14.3 案例研究:軟件供應鏈的運營
14.4 結論
第四部分大規模可觀測性
第15章自建與購買以及投資回報率
15.1 如何分析可觀測性的投資回報率
15.2 自建的真實成本
15.3 購買軟件的真實成本
15.4 購買與自建不是二元選擇
15.5 結論
第16章高效的數據存儲
16.1 可觀測性的功能要求
16.2 案例研究:Honeycomb的列式數據存儲實現
16.3 結論
第17章如何使採樣精準且便宜
17.1 使用採樣策略來優化數據採集
17.2 使用不同的採樣策略
17.3 將採樣策略轉化為代碼
17.4 結論
第18章使用流水線進行遙測管理
18.1 遙測流水線的屬性
18.2 管理一個遙測流水線:解剖
18.3 管理遙測流水線時的挑戰
18.4 用例:Slack的遙測管理
18.5 開源替代方案
18.6 管理遙測流水線:自建與購買
18.7 結論
第五部分傳播可觀測性文化
第19章可觀測性的商業案例
19.1 被動引入變更的方法
19.2 可觀測性的投資回報
19.3 主動引入變更的方法
19.4 將可觀測性引入實踐
19.5 使用合適的工具
19.6 知道何時你有足夠的可觀測性
19.7 結論
第20章可觀測性利益相關方和聯盟
20.1 識別非工程可觀測性需求
20.2 在實踐中創建可觀測性同盟
20.3 使用可觀測性與商業智能工具
20.4 在實踐中結合使用可觀測性和商業智能工具
20.5 結論
第21章可觀測性成熟度模型
21.1 關於成熟度模型的說明
21.2 為什麼可觀測性需要成熟度模型
21.3 關於可