2021年12月:微软Azure日本东部地区故障
事件经过:因电力设备故障,导致Azure日本东部地区服务中断超5小时,影响大量企业客户业务。
事故原因:基础设施运维事故,电力设备故障。
造成损失:客户业务中断,微软按SLA赔付,声誉受损。
2021年12月:西安“一码通” 短短半月崩溃两次
事件经过:12月20日及次年1月4日,西安“一码通”系统在半个月内连续两次崩溃。特别是在全员核酸检测期间,系统无法显示健康码,导致检测点排起长龙。
事故原因:系统架构无法承载峰值流量。虽然有疫情压力,但从运维角度看,是缺乏有效的弹性扩容机制和流量削峰设计,系统在面对突增的并发访问时直接“熔断”。
造成损失:疫情防控关键环节“掉链子”,严重影响了城市的防疫效率和秩序。
相关事故:
2022年1月10日,广州“粤康码”崩溃。
2022年3月11日,上海“随申码”崩溃。
2021年11月:网易游戏机房过热宕机
事件经过:网易游戏机房温度过高触发报警,部分服务器过热宕机,空调重启后仍无法解决,多款游戏无法登录、断连,3小时后服务器恢复正常。
事故原因:机房制冷系统故障,温度失控。
造成损失:干扰玩家游戏体验,影响游戏运营口碑。
2021年10月:Facebook史上最严重宕机
事件经过:10月4日,Meta旗下Facebook、Instagram、WhatsApp等服务全球中断近7小时,创2008年以来最长纪录,员工门禁卡、邮箱也无法使用。
事故原因:内部运维操作失误,修改BGP路由规则时误删域名服务器IP地址块路由配置。
造成损失:影响全球数十亿用户,Facebook市值蒸发约600亿美元,险些引发第三方服务连锁崩溃。
小插曲:宕机期间,大量用户涌向了Twitter、Telegram等其他应用,又进一步导致这些应用程序的服务器崩溃。
2021年10月:微软Azure 虚拟机全球故障
事件经过:10月13日,微软Azure云服务发生长达6小时的严重中断。全球范围内的用户无法启动、创建或更新Windows虚拟机,甚至连管理界面都打不开。
事故原因:服务管理操作期间的调用故障。在进行后台维护操作时,系统内部的调用机制失效,导致控制平面(Control Plane)失灵,用户失去了对服务器的“控制权”。
造成损失:企业无法管理核心云资产,业务扩展和维护受阻,再次打击了企业对公有云稳定性的信心。
2021年10月:Roblox 历史最长宕机
事件经过:10月28日,全球热门游戏平台Roblox发生了一次长达73小时的严重宕机。作为“元宇宙”概念的代表,这次长时间的停服让数千万玩家无法登录。
事故原因:负载均衡器过载与架构瓶颈。由于平台流量激增,负责分配流量的负载均衡器不堪重负,引发了内部网络的拥塞。Roblox坚持自建数据中心而非完全上云的策略,在应对突发流量洪峰时暴露了弹性不足的问题。
造成损失:平台信誉受损,玩家流失,且引发了关于“关键业务是否该上公有云”的行业大讨论。
2021年8月:英国Telstra数据中心火灾
事件经过:澳大利亚电信巨头Telstra伦敦数据中心因UPS故障发生火灾,导致一半大楼断电,部分区域受损。
事故原因:UPS故障引发火灾,烧毁供电组件。
造成损失:严重影响依赖该数据中心的金融及企业客户业务运转。
2021年6月:Fastly 内容分发网络崩溃
事件经过:6月8日,CDN服务商Fastly出现严重故障,导致全球大量依赖其加速的网站(包括Amazon、Reddit、CNN、PayPal等)在近1小时内无法访问。
事故原因:服务配置修改触发系统漏洞。Fastly工程师在进行一项常规的“服务配置”修改时,意外触发了系统底层的一个未被发现的软件漏洞,导致其全球节点瞬间瘫痪。
造成损失:互联网“基础设施”级故障,大量主流网站同时“消失”,凸显了互联网供应链的脆弱性。
2021年5月:Salesforce 全球大规模宕机
事件经过:5月11日,全球最大的CRM服务商Salesforce遭遇长达5小时的服务中断。这次故障波及全球,导致大量销售和客服人员无法访问客户数据。
事故原因:运维人员“走捷径”引发连锁故障。一名工程师在进行配置变更时,使用了有缺陷的脚本去绕过标准流程。该脚本在重启服务器时发生超时失败,但由于自动化部署机制未停止后续操作,导致故障在各个数据中心不断扩散,最终压垮了系统。
造成损失:全球数百万依赖Salesforce的企业用户业务停摆,作为“云服务标杆”的可靠性形象受损。
2021年4月:美国WebNX犹他州数据中心火灾
事件经过:美国WebNX犹他州数据中心发生火灾,导致超360万个网站故障,约1.5万名客户资料受影响。
事故原因:UPS故障引发火灾,缺乏物理隔离导致火势蔓延。
造成损失:部分数据永久丢失,客户权益受损,企业声誉受创。
2021年3月:法国OVH斯特拉斯堡数据中心火灾
事件经过:3月10日,欧洲云计算巨头OVH位于法国斯特拉斯堡的数据中心发生火灾,燃烧6小时后被扑灭,4个数据中心中1座完全烧毁。
事故原因:疑似UPS故障或电力室逆变器周围湿气引发短路。
造成损失:发生起火的SBG2数据中心被完全烧毁,360万个法国政府及企业网站瘫痪,OVH面临巨额赔偿和客户流失。