內容簡介:《網站可靠性工程》曾在業界引爆一陣探討現代生產服務運行的意義,以及為何可靠性考量是服務設計的基礎的熱潮。現在,這本熱銷書的原班人馬,再度推出了一本實戰手冊。以具體的案例,說明如何將SRE的原則與操練,應用在實際的工作環境。
本書不只結合了Google的實用經驗,也涵蓋了Google雲端平台(GCP)客戶的個案研究,包括Evernote、家得寶(Home Depot)、紐約時報等公司在實務上的成敗經驗。
無論您的公司規模大小,研讀本書都能讓您的SRE實踐更加得心應手。
透過本書,您可以了解:
.如何在你無法完全掌控的環境(如雲端)運維可靠服務
.如何以服務水準目標(SLO)建立、監控並運維服務的實務
.如何把現有的運維團隊轉變成SRE團隊,同時擺脫運維過載夢魘
.從零開始或半路出家的SRE實踐方法
名人推薦
「本書都是實際的案例,告訴你如何專注在使用者與工程師間,以及技術與工具間的互動,來優化可靠性,又不拖累開發步調。內容引人入勝、饒富趣味、看過《網站可靠性工程》,也不能錯過這一本」,Casey Rosenthal, Backplane技術長
「這本書補上了《網站可靠性工程》欠缺的部分。前一本書說明他們做了什麼,但你未必能夠套用這些案例的解法。本書不只示範了他們怎麼做,並為你設身處地,量身打造屬於你的做法。」,David N. Blank-Edelman,全球SRE大會的共同發起人
「這本實用又切中實務的指南,引導實行SRE,讓大大小小公司的工程師們,都能獲益匪淺。他們分享的細節鉅細靡遺,令我印象深刻,有這樣一本實務經驗分享的書,真是太好了。你可以運用這本書,馬上躬行實踐SRE,打造更可靠的系統。」,Tammy Bütow, Gremlin首席可靠性工程師
「讓SRE演變成大規模運維之必要實踐的幕後推手Google SRE團隊,及時地提醒我們:可靠性是人創造的。本書有許多實用的案例,說明如何專注於使用者與工程師的互動,以及技術與工具間的相輔相成,從而以可靠性為基礎優化系統,同時又不用犧牲功能開發的速度。結果就是這本很有說服力、引人入勝又啟迪人心的SRE指南。」,—Casey Rosenthal, Bckplane.io技術長
「Google第一本SRE之書解釋了SRE是什麼,以及為什麼要SRE。這本書則是說明如何實行SRE,這是Google編輯團隊的又一鉅作。」,—Jonah Horowitz, Stripe網站可靠性工程師
「《網站可靠性工程》描述Google做了什麼,本書則是告訴讀者,Google如何實行SRE,以及您也可以如何依樣畫葫蘆。」,David N. Blank-Edelman, 全球SREcon大會共同創辦人
目錄
章節說明:前言一
前言二
序言
譯序
第一章 SRE 與 DevOps 如何琴瑟和鳴
【第一篇 基礎】
第二章 實施 SLO
第三章 SLO 工程案例研究
第四章 監控
第五章 就 SLO 告警
第六章 消滅苦工
第七章 簡單性
【第二篇 實踐】
第八章 on-call
第九章 事故回應
第十章 事後檢討文化:從失敗中學習
第十一章 管理負載
第十二章 非抽象大型系統設計簡介
第十三章 資料處理流水線
第十四章 組態設定的設計與最佳實踐
第十五章 組態設定的細節
第十六章 金絲雀發布
【第三篇 流程】
第十七章 識別過載並從其中復原
第十八章 SRE 積極參與模型
第十九章 SRE:跨越疆界
第二十章 SRE 團隊之生命週期
第二十一章 SRE 組織變革管理
結論
附錄A SLO 文件範本
附錄B 範例犯錯預算政策
附錄C 事後檢討分析結果
索引
章節說明:前言一
前言二
序言
譯序
第一章 SRE 與 DevOps 如何琴瑟和鳴
【第一篇 基礎】
第二章 實施 SLO
第三章 SLO 工程案例研究
第四章 監控
第五章 就 SLO 告警
第六章 消滅苦工
第七章 簡單性
【第二篇 實踐】
第八章 on-call
第九章 事故回應
第十章 事後檢討文化:從失敗中學習
第十一章 管理負載
第十二章 非抽象大型系統設計簡介
第十三章 資料處理流水線
第十四章 組態設定的設計與最佳實踐
第十五章 組態設定的細節
第十六章 金絲雀發布
【第三篇 流程】
第十七章 識別過載並從其中復原
第十八章 SRE 積極參與模型...