谷歌 GCP 意外封禁了其大客户 Railway 账号,引发 8 小时宕机事故 文章

开源中国2026-05-21NEWSzh作者:

摘要

2026年5月19日,云原生部署平台Railway遭遇平台级服务中断,起因竟是Google Cloud误将其生产账号标记为"已暂停"。这场持续8小时的故障不仅影响了Railway自身的服务,还波及了托管在其平台上的所有用户工作负载,再次敲响云厂商单点依赖的警钟。 事故概述 2026年5月19日22:20 UTC至5月20日06:14 UTC(约8小时),Railway经历了平台级服务中断。Google Cloud在一次自动化操作中,错误地将Railway的生产账号置于"暂停"状态,导致其所有GCP托管的基础设施瞬间下线。受影响的服务包括Railway的Dashboard、API、控制平面以及部分网络基础设施。 事故的严重性远超预期。虽然Railway自建的数据中心(Railway Metal)和AWS弹性计算环境的工作负载本身仍在运行,但由于Railway的边缘代理依赖托管在Google Cloud的控制平面API来填充路由表,随着路由缓存过期,这些原本健康的工作负载也逐渐变得不可达。最终,所有Railway工作负载——无论托管在哪个云平台——全部瘫痪。 时间线还原 根据Railway发布的详细事故报告,事件发展如下: 22:10 UTC— 自动化监控检测到API健康检查失败,值班工程师开始调查 22:11 UTC— Dashboard返回503错误,用户无法登录 22:19 UTC— 根因定位:Google Cloud Platform暂停了Railway的生产账号 22:22 UTC— 向Google Cloud提交P0工单,直接联系GCP客户经理 22:29 UTC— 事故升级;GCP账号访问恢复,但所有计算实例仍处于停止状态,持久化磁盘无法访问 22:35 UTC— 缓存的网络路由开始过期;Railway Metal和AWS上的工作负载开始返回404错误 23:09 UTC— 首个持久化磁盘恢复在线 23:54 UTC— 所有持久化磁盘恢复就绪,但网络仍未恢复 01:30 UTC(次日)— 计算实例开始恢复 01:38 UTC— 边缘流量重新服务,网络恢复 02:47 UTC— GitHub开始对Railway的OAuth和Webhook集成进行速率限制 04:00 UTC— API、Dashboard和OAuth端点确认运行正常 06:

摘要可能不完整,可查看原文

相关事件

暂无数据

相关人物

暂无数据