跳到主要内容

《SRE Google运维解密》

· 阅读需 1 分钟

SRE 方法论

确保长期关注研发工作

Google 将 SRE 团队的运维工作限制在 50%以内。

SRE 处理运维工作的一项准则是:在每 8-12 小时的 on-call 轮值期间最多只处理两个紧急事件。

所有的产品事故都应该有对应的事后总结,无论有没有触发报警。事后总结应该包括以下内容:事故发生、发现、解决的全过程,事故的根本原因,预防或者优化的解决方案。事后总结的目标是尽早发现和堵住漏洞,而不是通过流程去绕过和掩盖它们。

在保障服务 SLO 的前提下最大化迭代速度

一般来说,任何软件系统都不应该一味地追求 100%可靠 正确的可靠性目标,必须考虑以下几个方面:

  • 基于用户的使用习惯,服务器可靠性要达到什么程度用户才会满意?
  • 如果这项服务的可靠性程度不够,用户是否有其他的替代选择?
  • 服务的可靠程度是否会影响用户对这项服务的使用模式?