SRE:Google运维解密

SRE:Google运维解密

作者:[美] 贝特西·拜尔(Betsy Beyer)

出版社:电子工业

出版年:2016年10月

ISBN:9787121297267

所属分类:网络科技

书刊介绍

《SRE:Google运维解密》内容简介

大型软件系统生命周期的绝大部分都处于“使用”阶段,而非“设计”或“实现”阶段。那么为什么我们却总是认为软件工程应该首要关注设计和实现呢?在《SRE:Google运维解密》中,Google SRE的关键成员解释了他们是如何对软件进行生命周期的整体性关注的,以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存最大的软件系统。通过阅读《SRE:Google运维解密》,读者可以学习到Google工程师在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践——这些都是可以立即直接应用的宝贵经验。
任何一个想要创建、扩展大规模集成系统的人都应该阅读《SRE:Google运维解密》。《SRE:Google运维解密》针对如何构建一个可长期维护的系统提供了非常宝贵的实践经验。
(美)贝特西·拜尔(Betsy Beyer)是Google纽约负责SRE的一名技术文档作家。她之前曾为遍布全球的Google数据中心与Mountain View硬件运维团队编写文档。在搬到纽约之前,Betsy是Stanford大学技术性写作课程的讲师。她曾经学习国际关系与英文文学,并在Stanford和Tulane获得学历。

作品目录

O'Reilly
Media,Inc.介绍
赞誉
译者序
前言
序言
第Ⅰ部分
概览
第1章:介绍
第2章:Google
生产环境:SRE视角
第Ⅱ部分
指导思想
第3章:拥抱风险
第4章:服务质量目标
第5章:减少琐事
第6章:分布式系统的监控
第7章:Google
的自动化系统的演进
第8章:发布工程
第9章:简单化
第Ⅲ部分
具体实践
第10章:基于时间序列数据进行有效报警
第11章:on-call轮值
第12章:有效的故障排查手段
第13章:紧急事件响应
第14章:紧急事故管理
第15章:事后总结:从失败中学习
第16章:跟踪故障
第17章:测试可靠性
第18章:SRE部门中的软件工程实践
第19章:前端服务器的负载均衡
第20章:数据中心内部的负载均衡系统
第21章:应对过载
第22章:处理连锁故障
第23章:管理关键状态:利用分布式共识来提高可靠性
第24章:分布式周期性任务系统
第25章:数据处理流水线
第26章:数据完整性:读写一致
第27章:可靠地进行产品的大规模发布
第Ⅳ部分
管理
第28章:迅速培养SRE加入on-call
第29章:处理中断性任务
第30章:通过嵌入SRE的方式帮助团队从运维过载中恢复
第31章:SRE与其他团队的沟通与协作
第32章:SRE参与模式的演进历程
第Ⅴ部分
结束语
第33章:其他行业的实践经验
第34章:结语
附录A
系统可用性
附录B
生产环境运维过程中的最佳实践
附录C
事故状态文档示范
附录D
事后总结示范
附录E
发布协调检查列表
附录F
生产环境会议记录示范
参考文献
索引
关于编著者
封面介绍

相关推荐

微信二维码