加入收藏 | 设为首页 | 会员中心 | 我要投稿 网站开发网_盐城站长网 (https://www.0515zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

饿了么技术运营是如何摆平那些恼人事故的

发布时间:2021-01-20 12:49:43 所属栏目:站长百科 来源:网络整理
导读:副标题#e# 《饿了么技术运营是如何摆平那些恼人事故的》要点: 本文介绍了饿了么技术运营是如何摆平那些恼人事故的,希望对您有用。如果有疑问,可以联系我们。 饿了么技术运营部、风控管理部高级总监 作者:徐盎 编辑:孙淑娟 徐盎,擅长精益运维、精细化风

当前的做法是进行碎片化、地毯式的大扫荡来排障.什么是地毯式的大扫荡呢?就是把足够多的信息先拿到,进行分工,要求涉及的每个工程师都来查看.内容涉及到外卖、商户、支付和物流,然后还有基础业务和网络监控,外网的一些流量,还有服务器的一些负担等等.

这时,技术工程师的有序自证就变得非常重要,当前能做到的是每一个人能看到当前负责的服务是不是有问题.还需要做的就是提供工具,比如交换机的丢包、服务器的丢包.通过一些工具,让技术工程师及时发现问题,但是这个过程是需要时间的.

另外一个是在自证的时候,一定要仔细地检查.作为团队中的一个成员,每一个技术工程师负责相应的板块,但一旦因为个人疏忽或是自检不足造成一些失误,要自己“刷锅”.故障定位后,提升恢复效率解决问题才是关键.

还有,应急演习很重要.应急演习直接关系到系统恢复的效率,当一个集群出问题的时候,技术能不能快速的恢复.

二、运营心得本次分享大部分围绕事故来讲.每一次事故的出现都不是偶然的,很多问题是可以通过正确的使用姿势、提前做容量预估、灰度等方法规避的.如果说技术只是就事论事把这一件事情解决的话,事故往往在另外一个时间点还会出现.

这就要求工程师以思考的方式去做事,比如做事故复盘、事故报道审核,还有验收小组等.然后,通过在各个阶段,多次把一个事故涉及的关键点提出来,不断地进行总结并制定可行的操作规范.

问题的解决往往需要思维模式的转变,需要伙伴们多想想怎么从日常重要紧急的事务里抽离出时间思考.

还有要敢于折腾.折腾是什么概念呢?就是要不断的演习、捣乱,工程师对于维护的系统,自己要非常的熟悉,这样在定位和解决故障的时候,就会非常精准.

最后一个是灯下黑的问题,特别是基础设施这块.这在当时让人很头疼,查一个问题在基础设施上花费的时间是十多分钟到一个小时.后来有一个小伙伴改变思路,做出了一套系统,帮助团队非常好地解决了这个大问题.所以敢于思考,勤于尝试是饿了么技术团队非常重要的一个心得.

文章来自微信公众号:51CTO技术栈

(编辑:网站开发网_盐城站长网 )

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!