本次更新了兩章內(nèi)容,主要聚焦于《研發(fā)保障》和《故障應(yīng)急》兩大核心部分,整體文章結(jié)構(gòu)進(jìn)行了優(yōu)化,新增7個(gè)案例,共計(jì)7.2萬字。新增內(nèi)容涵蓋互聯(lián)網(wǎng)、運(yùn)營商、銀行及金融等多個(gè)行業(yè)。其中,《故障應(yīng)急》章節(jié)深入解析了多家企業(yè)的應(yīng)急響應(yīng)體系,內(nèi)容充實(shí)且實(shí)用性強(qiáng)。而《研發(fā)保障》章節(jié)則探討了SRE工作左移的前沿實(shí)踐,包含了企業(yè)代碼級的細(xì)致案例分享,極具參考價(jià)值。
2.3.1 騰訊游戲全球研發(fā)保障實(shí)踐
SRE Elite精選原因
這是一個(gè)完整的游戲行業(yè)研發(fā)保障案例。面對游戲研發(fā)中的復(fù)雜研發(fā)管線、大文件版本管理、冗長的構(gòu)建過程和頻繁的更新需求等挑戰(zhàn),SRE團(tuán)隊(duì)通過穩(wěn)定性保障、平臺工具建設(shè)、以及與業(yè)務(wù)開發(fā)團(tuán)隊(duì)的有效分工,實(shí)現(xiàn)了高效的研發(fā)保障。 此案例覆蓋了研發(fā)保障的多個(gè)關(guān)鍵模塊,在代碼可靠性,代碼倉庫可靠性、制品分發(fā)、以及構(gòu)建加速等多個(gè)方面進(jìn)行了優(yōu)化,顯著提升了代碼提交和構(gòu)建的成功率,并有效解決了代碼庫卡頓和文件分發(fā)效率低等問題。相關(guān)的優(yōu)化內(nèi)容非常的詳盡細(xì)節(jié), 具有很強(qiáng)的實(shí)踐性,且大部分關(guān)鍵組件提供了開源的實(shí)現(xiàn)案例,非常值得參考。

2.3.2 某語音直播公司研發(fā)過程保障實(shí)踐
SRE Elite精選原因
此案例展示了某語音直播公司在現(xiàn)代化軟件架構(gòu)下的研發(fā)保障實(shí)踐。面對微服務(wù)、容器化和服務(wù)網(wǎng)格等新技術(shù)帶來的挑戰(zhàn),該公司構(gòu)建了全面的研發(fā)保障體系,涵蓋快速發(fā)布、穩(wěn)定性保障、代碼可靠性和服務(wù)運(yùn)行等多個(gè)關(guān)鍵模塊。其中,采用服務(wù)網(wǎng)格進(jìn)行環(huán)境隔離和金絲雀發(fā)布,屬行業(yè)內(nèi)的創(chuàng)新實(shí)踐,體現(xiàn)了深入的云原生應(yīng)用。此外,通過IDE插件對接環(huán)境進(jìn)行調(diào)試,大幅提升了問題排查的效率。此案例實(shí)踐性強(qiáng)、創(chuàng)新性高,具有廣泛的借鑒意義。

5.3.1 小米故障應(yīng)急響應(yīng)經(jīng)驗(yàn)分享
小米擁有很強(qiáng)的硬件基因文化,因?yàn)槿绻布霈F(xiàn)質(zhì)量問題, 相關(guān)的修復(fù)成本將會非常巨大。所以其質(zhì)量有獨(dú)特的要求, 小米擁有獨(dú)立QA 團(tuán)隊(duì), 對運(yùn)維質(zhì)量進(jìn)行考核及管控,構(gòu)成了其獨(dú)特的故障管理體系以及復(fù)盤的體系, 可供有類似業(yè)務(wù)特性的組織進(jìn)行參考。

5.3.2 中國聯(lián)通數(shù)字化監(jiān)控平臺穩(wěn)定性保障實(shí)踐
中國聯(lián)通作為國家重點(diǎn)央企,長期以來以其龐大的業(yè)務(wù)體系和穩(wěn)健的運(yùn)營著稱,面對數(shù)字化轉(zhuǎn)型的浪潮,中國聯(lián)通積極推動核心業(yè)務(wù)系統(tǒng)向云原生架構(gòu)大規(guī)模演進(jìn),面臨著技術(shù)革新的復(fù)雜挑戰(zhàn),還需確保轉(zhuǎn)型過程中的系統(tǒng)穩(wěn)定性。此案例探索并構(gòu)建了一套符合穩(wěn)態(tài)企業(yè)的穩(wěn)定性保障方案、策略及平臺,并深度融合可落地的智能化 AIOPS能力,提升運(yùn)維效率與故障處置速度,為其他穩(wěn)態(tài)企業(yè)提供了可供參考的路徑。

5.5.3 騰訊全球化游戲故障管理實(shí)踐
騰訊游戲在全球運(yùn)營的多個(gè)游戲業(yè)務(wù)中, 統(tǒng)一使用了SLO /SLI方法論, 對業(yè)務(wù)進(jìn)行業(yè)務(wù)導(dǎo)向的監(jiān)控可視化, 并使用了eBPF 等技術(shù), 對業(yè)務(wù)進(jìn)行無死角的觀測,實(shí)現(xiàn)了業(yè)務(wù)服務(wù)的標(biāo)準(zhǔn)化度量,故障的快速感知及定位。 并能通過藍(lán)鯨平臺,實(shí)現(xiàn)部分部分固定場景的自愈,實(shí)現(xiàn)了監(jiān)控與批量作業(yè)的聯(lián)動,降低了MTTR,相關(guān)實(shí)踐具備較強(qiáng)的落地性及可參考性。

5.5.4 XX銀行應(yīng)急管理一體化平臺建設(shè)實(shí)踐
XX 銀行是中國乃至全球規(guī)排名前列的商業(yè)銀行,業(yè)務(wù)眾多,客戶群體遍布全球,且適逢整體IT 架構(gòu)升級,數(shù)字化轉(zhuǎn)型深入,技術(shù)挑戰(zhàn)巨大。在這種背景下,XX 銀行構(gòu)建了符合金融行業(yè)強(qiáng)監(jiān)管特性的三個(gè)一體化的應(yīng)急管理平臺:通過“一體化技術(shù)平臺”實(shí)現(xiàn)了底層能力平臺PaaS化,滿足各種底層操作原子化包裝的需求;通過“管理操作一體”,實(shí)現(xiàn)應(yīng)急管理思想和自動化操作的同步;通過“數(shù)據(jù)融合一體化”,實(shí)現(xiàn)應(yīng)急決策所需配置數(shù)據(jù)、執(zhí)行數(shù)據(jù)、性能數(shù)據(jù)、變更數(shù)據(jù)的統(tǒng)一管理和展示 。通過以上以上三個(gè)一體化,降低了業(yè)務(wù)穩(wěn)定性的風(fēng)險(xiǎn), 值得廣大金融行業(yè)參考。

5.5.5 美圖故障管理體系搭建實(shí)踐
美圖在這個(gè)案例的分享中,展示了非常完整的SRE體系及故障管理體系,以故障生命周期管理為核心,引入了由人員、流程、技術(shù)和愿景構(gòu)成的“PPTV框架”;并強(qiáng)調(diào)數(shù)據(jù)驅(qū)動的決策,倡導(dǎo)定期復(fù)盤和持續(xù)改進(jìn),通過構(gòu)建穩(wěn)定性運(yùn)營平臺,實(shí)現(xiàn)對故障事前、事中及事后的全方位管理,全面且扎實(shí),很值得大家進(jìn)行研讀。

反饋和溝通
如果您有任何問題或建議,點(diǎn)這里提交聯(lián)系我們。
也歡迎使用 GitHub 的 issue & Discussions 功能來提交您的問題或討論。