SRE工程師應知應會97件事 97 Things Every Sre Should Know: Collective Wisdom from the Experts

Emil Stolarsky,Woo, Jaime 譯者 中國DevOps社區

商品描述

Incident Labs的聯合創始人 Jaime Woo和Emil Stolarsky從整個行業收集了97條簡單實用的技巧,
包括值得信賴的最佳實踐和解決棘手問題的新方法。
通過了解發人深省的推動領域發展的問題,以及我們給出的合理建議,你將會提高和完善你的 SRE 技能。

目錄大綱

前言1
第1章用六個詞來概括站點可靠性工程6
Alex Hidalgo
第2章知道我們為什麼真的需要可靠性麼?8
Niall rphy
第3章構建自調節過程10
Denise Yu
第4章SRE 家宴上的四個工程師12
Jacob Scott
第5章可靠性堆棧14
Alex Hidalgo
第6章基礎設施:這就是力量所在16
Charity Majors
第7章關於彈性的思考18
Justin Li
第8章開發週期中的可觀測性20
Charity Majors, Liz Fong-Jones
第9章一切都是可以理解的22
Bouke van der Bijl
第10章Wikipedia 是如何為你服務的24
Effie Mouzeli
第11章為什麼你應該對TCP 有所了解?27
Julia Evans
第12章管理接口的重要性30
Salim Virji
第13章說到存儲,請考慮分佈式32
Salim Virji
第14章數據基數的作用34
Charity Majors, Liz Fong-Jones
第15章安全就像洋蔥36
Lucas Fontes
第16章用話語記錄38
Tanya Reilly
第17章通往SRE 之路40
Fatema Boxwala
第18章親愛的未來團隊42
Frances Rees
第19章可持續性與職業倦怠44
Denise Yu
第20章不要聽從老師傅的建議46
John Looney
第21章面對第一次的事故呼叫48
Andrew Louis
第22章SRE,文化至上50
Matthew Huxtable
第23章在小型組織中人人都是SRE 52
Matthew Huxtable
第24章審計你的環境以促進改善54
Joan O'Callaghan
第25章事故響應,從小處著手56
Thai Wood
第26章獨當一面的SRE:獨自一個人影響大規模的變革58
Ashley Poole
第27章設計SLO 度量的目標60
Ben Sigelman
第28章我有錯誤預算——現在怎麼辦62
Alex Hidalgo
第29章如何改變現狀64
Joan O'Callaghan
第30章問題定位方法論67
Avishai Ish-Shalom, Nati Cohen
第31章初創公司如何建立SRE 思維69
Tamara Miner
第32章自力更生,在企業中落地SRE !71
Vanessa Yiu
第33章不知道沒關係,出錯也沒關係73
Todd Palino
第34章講故事是一種超能力75
Anita Clarke
第35章讓你的工作得到認可: 寫一份自誇的文檔78
Julia Evans, Karla Burnett
第36章讓大家看到你的工作成果81
Lorin Hochstein
第37章被忽視的工程技能84
rali Suriar
第38章卸下遠程值守的包袱86
Jason Hand
第39章事件處理大師88
Andrew Louis
第40章毫不費力的事件管理90
Suhail Patel, Miles Bryant, Chris Evans
第41章如果你在做運行手冊,就把它們做好92
Spike Lindsey
第42章為什麼我厭惡我們的流程手冊94
Frances Rees
第43章什麼樣的工具運行良好97
Michelle Brush
第44章將同理心注入SRE 工具99
Daniella Niyonkuru
第45章使用ChatOps 來實現共情102
Daniella Niyonkuru
第46章迅速行動,唯快不破104
Michelle Brush
第47章能在生產系統中運行才算確認106
Ingrid Epure
第48章有時候修復本身就是問題108
Jake Pittis
第49章傳奇故事110
Elise Gale
第50章監控指標不是SLI( 衡量一切的陷阱) 112
Brian rphy
第51章當SLO 遭受質疑時如何去改善114
Narayan Desai
第52章產品可靠性的整體方法117
Kristine Chen, Bart Ponurkiewicz
第53章尋找失去的時間120
Ingrid Epure
第54章答疑時間的意外收穫122
Tamara Miner
第55章為內部客戶建立他們真正想要使用的工具124
Vinessa Wan
第56章個體和交互那些事126
Vinessa Wan
第57章SRE 的人員能力基線128
Effie Mouzeli
第58章遠程高效或高效遠程130
Avleen Vig
第59章餘量和個體132
Kurt Andersen
第60章系統餘量的重要性134
Kurt Andersen
第61章更少的電子表格,更多的餐巾紙136
Jacob Bednarz
第62章巧妙地引入DevOps 138
Vinessa Wan
第63章在企業中有效的SRE 文化變革140
Vanessa Yiu
第64章獻給我愛的所有SRE 142
Felix Glaser
第65章複雜:技術中最超負荷的詞語145
Laura Nolan
第66章我給團隊的優選建議147
Nicole Forsgren
第67章創造你的工作清單149
Daria Barteneva, Eva Parish
第68章按照SLO 操作151
David K Rensin
第69章英雄是必要的,英雄主義卻不是153
Lei Lopez
第70章人們願意參加的值班工作155
Miles Bryant, Chris Evans, Suhail Patel
第71章學習研究人的因素和團隊文化,進而改善呼叫器的疲勞度157
Daria Barteneva
第72章優化恢復的平均時間159
Spike Lindsey
第73章減輕和預防級聯故障161
Rita Lu
第74章實時健康度:可以衡量的指標163
Caitie McCaffrey
第75章幫助領導者優先考慮實時健壯性的問題165
Caitie McCaffrey
第76章作為外交官的SRE 168
Johnny Boursiquot
第77章前瞻性部署的SRE 170
Johnny Boursiquot
第78章檢驗你的災備計劃172
Tanya Reilly
第79章為什麼對於SRE 實踐來說培訓是重要的,
並且對於培訓課程來說SRE 很重要174
Jennifer Petoff
第80章單一化的力量177
Chris Evans, Suhail Patel, Miles Bryant
第81章每個用戶價值對應的字節數179
Arshia fti
第82章把工程博客提上議事日程181
Anita Clarke
第83章要讓任何人在你的上下文裡運行代碼183
John Looney
第84章交易場所:站點可靠性工程和產品185
Shubheksha Jalan
第85章透過團隊看產品187
Avleen Vig
第86章性能儲備金189
Dawn Parzych
第87章重要但不緊急:SRE 路線圖191
Laura Nolan
第88章那些50% 的事兒193
Tanya Reilly
第89章遵循安全關鍵系統之路195
Heidy Khlaaf
第90章適合且可實現的靜態分析197
Heidy Khlaaf
第91章形式化規範的重要200
Hillel Wayne
第92章社會技術系統中的風險與腐爛202
Laura Nolan
第93章危機中的SRE 204
Niall rphy
第94章預期的風險206
Blake Bisset
第95章跨越局部風險:細數憤怒的小鳥208
Blake Bisset
第96章來自軟件安全專業人士的一些建議210
J Paul Reed
第97章故障:讓我們有機會一窺缺陷212
Lorin Hochstein
第98章第三代SRE 214
Björn “Beorn” Rabenstein
作者介紹216
編者介紹237