导致惨重代价的运维事故2022 – Neohope的网络笔记

2022年12月：阿里云香港Region大规模宕机
事件经过：12月18日，阿里云香港Region可用区C发生大规模服务中断，持续数小时，为其运营十多年来最长大规模故障，新购ECS等管控操作全部失败，整个处置过程超过15小时。
事故原因：机房冷却系统失效，现场包间温度逐渐升高，导致一机房包间温度达到临界值触发消防系统喷淋，电源柜和多列机柜进水，部分机器硬件损坏。
造成损失：严重影响香港及澳门客户业务，品牌信誉受损，事后发布事故说明及改进措施。
小插曲：事故后，阿里云总裁、CTO都被更换。

2022年12月：达美航空（Delta）行李系统故障
事件经过：12月28日，达美航空的行李处理系统突发严重故障，导致全球多个主要机场的行李传送带停摆，大量行李无法被正确分拣和装载。
事故原因：硬件维护不当与软件集成失效。由于行李处理系统的物理传感器和分拣机械臂出现故障，且后台管理系统未能及时切换至备用模式，导致系统“死锁”。
造成损失：数千名旅客的行李丢失或延误，圣诞节假期返程高峰受阻，达美航空被迫手动处理行李，运营陷入混乱。

2022年12月：腾讯云北京地域部分服务器故障
事件经过：因网络设备故障，导致北京地域部分云服务器、数据库等服务访问异常，持续约3小时。
事故原因：网络设备故障引发的运维事故。
造成损失：部分企业业务中断，腾讯云紧急修复并赔付客户。

2022年8月：谷歌爱荷华州数据中心电气爆炸
事件经过：谷歌美国爱荷华州数据中心发生电气爆炸，造成3名电工严重烧伤，全球1338台服务器中断，谷歌地图、搜索服务宕机。
事故原因：电弧闪光引发爆炸。
造成损失：人员受伤，设施损毁，核心服务中断影响全球用户。

2022年7月：Twitter全球大规模宕机
事件经过：7月14日上午8:10左右开始，Twitter突发全球性大规模服务中断，持续约1小时。
事故原因：内部系统配置与软件故障，引发了连锁反应。
造成损失：全球数万用户受影响。
小插曲：正值Twitter起诉马斯克违约的敏感时期，加剧了外界对其内部管理混乱的猜测。

2022年7月：B站713事故
事件经过：2022年7月13日，B站崩了5个小时。
事故原因：根据B站的事故分析报告，是SLB故障导致。本次SLB故障，是OpenResty中，计算gcd的lua代码传入了0值，被lua判定为nan，陷入了死循环。这段lua代码已经稳定运行了一段事件，但一个新发布模式，却触发了这个bug。
造成损失：B站核心业务中断。

2022年7月：Oracle Cloud（甲骨文）核心故障
事件经过：7月19日，甲骨文云服务（Oracle Cloud Infrastructure, OCI）发生严重故障，导致其核心金融、ERP等SaaS服务在全球范围内无法访问。
事故原因：关键配置错误。运维人员在对核心网络基础设施进行配置更新时，引入了错误的路由策略，导致控制平面（Control Plane）瘫痪，客户无法管理或访问其云端资源。
造成损失：依赖甲骨文系统的大型企业财务和运营流程中断，凸显了传统企业级云服务在运维操作上的风险。

2022年3月~5月：招商证券交易系统连环崩溃
事件经过：3月14日开盘后系统突发故障，用户无法成交、撤单；5月16日系统再次崩溃，电脑端、手机端均无法登录。
事故原因：交易系统技术缺陷。
造成损失：严重扰乱交易秩序，引发投资者不满和监管关注，母公司对相关负责人问责，质疑券商IT系统稳定性。

2022年3月：富途证券（Futu）全球大宕机
事件经过：3月14日，互联网券商富途证券（牛牛APP）发生全球范围内的服务中断。用户无论是通过网页端还是手机APP，都无法登录交易系统，也无法查看持仓和进行交易，故障持续了数小时。
事故原因：底层架构扩容引发的连锁故障。在进行系统扩容升级时，运维团队对流量预估不足，且核心网关组件未能正确处理扩容带来的配置变更，导致负载均衡失效，流量无法分发至后端服务器。
造成损失：正值美股交易时段，大量投资者无法操作，引发用户强烈不满和投诉，对券商口碑造成负面影响。

Leave a Reply Cancel reply