本次更新新增約 3 萬余字,重點優化和擴展了《5 故障應急》章節內容:新增了 B 站和螞蟻的在 Qcon 上海SRE專場上分享的兩個案例。并根據實際需求,調整“應用服務 SLI/SLO/SLA” “重大技術保障”章節至本章,并在后者新增《OPPO 春節業務保障》案例; 最后,重點完善了故障體系的內容, 使其更接近實際的工作情況。
本次更新內容實用性極強,推薦廣大 SRE 同仁深入閱讀,以助力各組織優化故障應急體系設計,提升整體應急響應能力。
5.3.7 螞蟻故障應急全流程體系構建及應用實踐
本案例來自螞蟻集團的平臺工程與技術風險部行業一線的實踐總結構建了完善的故障應急全流程體系,主要亮點包括:明確故障定義和分級,聚焦關鍵業務的GOC場景,專注保障最重要的服務接口和結果點,驅動業務穩定性建設;還建立極具特色的應急值班長體系,明確應急角色和職責,提升組織協同能力;開發技術風險管理平臺(TRM),實現故障全生命周期的數字化運營,相關工作令人。 在展望未來時,此次分享向SRE領域的同仁們展示了人工智能與SRE Agent如何增強應急響應能力,并在智能化故障定位、決策和處理方面展現出巨大潛力,極具啟發性。

5.3.6 B站輕量級容災演練體系構建
B站的輕量級容災演練體系構建聚焦于高效、低成本地確保系統穩定性。首先,通過建立原子級故障庫和特化場景,演練對象和故障類型變得標準化,易于操作。演練體系涵蓋技術支撐、跨領域賦能、組織文化及流程優化,以實現常態化、自動化的演練環境。其核心亮點包括:簡化故障注入流程、豐富的觀測能力、自動化參數計算、標準化的演練協議、以及跨部門的協同機制。演練的目標是通過自動化工具支持,降低操作復雜度,確保演練可以在沒有SRE人員的情況下自主管理,最終推動全員參與的容災演練文化,增強業務系統的抗壓能力和恢復能力。此實踐考慮充分,方案完整,工程化實踐扎實,在業界中處于較為領先的地位,具備很強的參考意義。

6.2.5 Oppo 春節業務保障
作為國民級手機品牌,Oppo的部分云端的業務,在重大節日時會面臨超過平時10倍的流量洪峰沖擊。本案例詳細闡述了如何在極短的時間內應對未曾經歷過的流量洪峰挑戰新業務的活動保障的全過程——從準備、活動執行到總結。特別地,它涵蓋了諸多相關細節,例如對非常規增量流量的考量、值班計劃、降級方案以及資源預估等。這些內容對于擁有類似業務形態的公司來說,很很強的實操性參考。

反饋和溝通
如果您有任何問題或建議,點這里提交聯系我們。
也歡迎使用 GitHub 的 issue & Discussions 功能來提交您的問題或討論。