跳到主要内容

《SRE Google运维解密》

2019年7月13日 · 阅读需 1 分钟

SRE 方法论

确保长期关注研发工作

Google 将 SRE 团队的运维工作限制在 50%以内。

SRE 处理运维工作的一项准则是：在每 8-12 小时的 on-call 轮值期间最多只处理两个紧急事件。

所有的产品事故都应该有对应的事后总结，无论有没有触发报警。事后总结应该包括以下内容：事故发生、发现、解决的全过程，事故的根本原因，预防或者优化的解决方案。事后总结的目标是尽早发现和堵住漏洞，而不是通过流程去绕过和掩盖它们。

在保障服务 SLO 的前提下最大化迭代速度

一般来说，任何软件系统都不应该一味地追求 100%可靠正确的可靠性目标，必须考虑以下几个方面：

基于用户的使用习惯，服务器可靠性要达到什么程度用户才会满意？
如果这项服务的可靠性程度不够，用户是否有其他的替代选择？
服务的可靠程度是否会影响用户对这项服务的使用模式？

SRE 方法论
- 确保长期关注研发工作
- 在保障服务 SLO 的前提下最大化迭代速度