SRE：Google运维解密-网络科技-文化科教-太极之巅书单号

书刊介绍

《SRE：Google运维解密》内容简介

大型软件系统生命周期的绝大部分都处于“使用”阶段，而非“设计”或“实现”阶段。那么为什么我们却总是认为软件工程应该首要关注设计和实现呢？在《SRE：Google运维解密》中，Google SRE的关键成员解释了他们是如何对软件进行生命周期的整体性关注的，以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存最大的软件系统。通过阅读《SRE：Google运维解密》，读者可以学习到Google工程师在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践——这些都是可以立即直接应用的宝贵经验。
任何一个想要创建、扩展大规模集成系统的人都应该阅读《SRE：Google运维解密》。《SRE：Google运维解密》针对如何构建一个可长期维护的系统提供了非常宝贵的实践经验。
（美）贝特西·拜尔（Betsy Beyer）是Google纽约负责SRE的一名技术文档作家。她之前曾为遍布全球的Google数据中心与Mountain View硬件运维团队编写文档。在搬到纽约之前，Betsy是Stanford大学技术性写作课程的讲师。她曾经学习国际关系与英文文学，并在Stanford和Tulane获得学历。

作品目录

O'Reilly
Media,Inc.介绍
赞誉
译者序
前言
序言
第Ⅰ部分
概览
第1章：介绍
第2章：Google
生产环境：SRE视角
第Ⅱ部分
指导思想
第3章：拥抱风险
第4章：服务质量目标
第5章：减少琐事
第6章：分布式系统的监控
第7章：Google
的自动化系统的演进
第8章：发布工程
第9章：简单化
第Ⅲ部分
具体实践
第10章：基于时间序列数据进行有效报警
第11章：on-call轮值
第12章：有效的故障排查手段
第13章：紧急事件响应
第14章：紧急事故管理
第15章：事后总结：从失败中学习
第16章：跟踪故障
第17章：测试可靠性
第18章：SRE部门中的软件工程实践
第19章：前端服务器的负载均衡
第20章：数据中心内部的负载均衡系统
第21章：应对过载
第22章：处理连锁故障
第23章：管理关键状态：利用分布式共识来提高可靠性
第24章：分布式周期性任务系统
第25章：数据处理流水线
第26章：数据完整性：读写一致
第27章：可靠地进行产品的大规模发布
第Ⅳ部分
管理
第28章：迅速培养SRE加入on-call
第29章：处理中断性任务
第30章：通过嵌入SRE的方式帮助团队从运维过载中恢复
第31章：SRE与其他团队的沟通与协作
第32章：SRE参与模式的演进历程
第Ⅴ部分
结束语
第33章：其他行业的实践经验
第34章：结语
附录A
系统可用性
附录B
生产环境运维过程中的最佳实践
附录C
事故状态文档示范
附录D
事后总结示范
附录E
发布协调检查列表
附录F
生产环境会议记录示范
参考文献
索引
关于编著者
封面介绍