加入收藏 | 设为首页 | 会员中心 | 我要投稿 网站开发网_盐城站长网 (https://www.0515zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

SRE系列教程 | 孙宇聪:来自Google的DevOps理念及实践(上)

发布时间:2021-01-08 23:10:49 所属栏目:站长百科 来源:网络整理
导读:副标题#e# 《SRE系列教程 | 孙宇聪:来自Google的DevOps理念及实践(上)》要点: 本文介绍了SRE系列教程 | 孙宇聪:来自Google的DevOps理念及实践(上),希望对您有用。如果有疑问,可以联系我们。 SRE(Site Reliability Engineering)是最早由Google提出,

处理完问题之后,要总结.之前听过的一个故事是,某公司业务出现了一个事故,大家加班加点,十几个小时没睡觉把这事搞定,然后领导过来就说了一句“大家辛苦了,回家睡觉吧”.但是,其实在这个时候我要说,领导光说这个其实恰恰是不够的.领导在这里应该问:为什么加班啊?这个事情为什么会发生啊,下次能不能不发生,大家能不能不加班,能不能不熬夜?这样才对,能做到事后总结这个事情很难,但只有把这个做好了,才能降低以后问题发生的几率.

日常运维

日常运维做得最多的可能是变更管理.业务现在发展非常快,迭代速度、迭代周期非常快.其实这件事情能做好,能够做到无缝、安全、不停的变更管理,是运维部门能给公司做的最大贡献.

第二个,容量规划,当规模大到一定程度的时候,就需要有人来回答这个问题——到底要买多少新机器,能否保证明年的性能、效率,那谁来负责这件事呢?SRE部门提出这些方案,然后要确保这些指标、这些东西是有数据支撑的,确实能解决问题的.

工程研发

工程研发虽然做得少,但是工作很关键.SRE在工程研发上主要的工作,首先是帮产品部门确定一个SLO.SLO是一个服务指标,每一个产品都有一个服务指标.任何系统都不可能是百分之百可靠的,也没有必要做到百分之百可靠.这里得有一个目标,比如说可以每个月中断几分钟.这件事情是要产品部门考虑清楚的.比如我之前在YouTube做视频存储、视频点播的时候,要考虑每个视频到底是存一份还是存两份的问题,将这种问题放到一个非常大的部署规模里面的时候,只有产品部门能够拍板.说到底是要不要花这个预算,要不要花这么多钱去提高0.1%的可靠性或者0.01%的可靠性.

(编辑:网站开发网_盐城站长网 )

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!