SRE生存指南

SRE生存指南

作者:[美] 纳特·韦尔奇(Nat Welch)

出版社:电子工业

出版年:2019年10月

ISBN:9787121371769

所属分类:政治军事

书刊介绍

《SRE生存指南》内容简介

站点可靠性工程(Site Reliability Engineering,简称SRE)是一个令人兴奋的新兴领域,它专注于如何确保系统稳定、可靠地运行。本书基于一个金字塔层次结构模型,深入浅出地介绍了关于SRE的方方面面,涉及监控、事故响应与回顾、测试与发布、容量规划、开发、用户体验设计,以及贯穿其中的沟通技巧。
本书是SRE工程师、DevOps工程师、运维工程师和系统管理员不可或缺的参考资料;软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE的相关知识。
纳特·韦尔奇(Nat Welch),是一名美国的软件开发人员。自2005年以来,他一直做着网站构建及运维的工作。他热爱网站的基础设施建设,因为这可以支持其他人的创造性努力。2012年,Nat成为谷歌的SRE(Site Reliability Engineering,站点可靠性工程)工程师,并爱上了这个职业。从那时起,他在各种规模的公司工作过,并一直致力于提高网站的可靠性,以帮助开发人员构建可靠的系统。

作品目录

内容简介
推荐序1、推荐序2、推荐序3、前言
1、简介
SRE简史
SRE是什么
关于这本书
以SRE作为新项目的框架
小结
2、监控
为什么要监控
检测应用程序
收集和保存监控数据
展示监控信息
管理和维护监控数据
沟通
小结
参考资料
3、事故响应
什么是事故
什么是事故响应
警报
随时待命
沟通
恢复系统
警报解除
小结
4、事后回顾
什么是事后回顾
为什么写事后回顾报告
何时写事后回顾报告
开展事故分析
如何写事后回顾报告
停止事后指责
举行事后回顾会议
分析以往的事后回顾报告
小结
参考资料
5、测试和发布
测试
发布
自动化
小结
6、容量规划
企业财务简介
为什么需要规划
定义一个规划
架构——性能变化的根源
技术作为利润中心和采购
小结
7、构建工具
定义项目
项目计划
构建项目
文档与维护项目
小结
8、用户体验
设计和用户体验简介
用户测试
开发者体验
工具经验
绩效预算
安全性
ACM道德准则
小结
参考资料
9、网络基础
互联网
发送一个HTTP请求
网络监控工具
小结
参考资料
10、Linux
和云基础
Linux基础
云基础
伸缩单元
架构面试示例
小结
参考资料

相关推荐

微信二维码