《SRE Google运维解密》
· 阅读需 1 分钟
SRE 方法论
确保长期关注研发工作
Google 将 SRE 团队的运维工作限制在 50%以内。
SRE 处理运维工作的一项准则是:在每 8-12 小时的 on-call 轮值期间最多只处理两个紧急事件。
所有的产品事故都应该有对应的事后总结,无论有没有触发报警。事后总结应该包括以下内容:事故发生、发现、解决的全过程,事故的根本原因,预防或者优化的解决方案。事后总结的目标是尽早发现和堵住漏洞,而不是通过流程去绕过和掩盖它们。
在保障服务 SLO 的前提下最大化迭代速度
一般来说,任何软件系统都不应该一味地追求 100%可靠 正确的可靠性目标,必须考虑以下几个方面:
- 基于用户的使用习惯,服务器可靠性要达到什么程度用户才会满意?
- 如果这项服务的可靠性程度不够,用户是否有其他的替代选择?
- 服务的可靠程度是否会影响用户对这项服务的使用模式?