小赖子的英国生活和资讯

CloudFlare宕机, 半个互联网崩了

阅读 桌面完整版

今天的 Cloudflare 宕机:一次震撼全球的“单点故障”

今天早上,我突然收到了一大堆报警,我手下的15个网站都报警了,收到了很多邮件,这很不正常,有的时候是报警的程序自己的问题,因为其中的一个邮件报警是我自己写的。 但是我核实了一下,确实打不开,显示是500服务器内部错误,这个错误一般就是服务器配置错误崩溃造成的。但我细眼一看,是CloudFlare的服务器的问题。这可是我第一次见。

Cloudflare 已经是互联网基础设施级服务,一旦宕机影响面巨大。这次事故暴露了去中心化互联网在实际运行中高度中心化的问题。

CloudFlare按现在最新数据,有750万个网站,排名/流量最高的1万个中有33%是用CloudFlare,所以这次宕机的影响之深,还好,这次友宕机也就三个小时左右,这次宕机影响到了很多服务,其中X和ChatGPT都打不开了,中间还陆陆续续间断的恢复过几分钟时间。

18 日,全球知名的网络基础设施服务商 Cloudflare 发布公告称,其全球网络出现大范围异常,导致大量网站和应用出现访问中断。受影响的平台包括 X(前 Twitter)、ChatGPT 等多家核心互联网服务,有媒体报道称 Spotify、亚马逊部分服务也出现了故障。

受此次事故影响,Cloudflare 股价在盘前一度下跌超过 5%。

按照官网介绍,Cloudflare 是一家全球性的云网络平台,为各类规模的企业提供安全加速、内容分发、DNS、零信任等服务。其数据传输网络覆盖全球 125 个国家、330 座城市,是互联网“入口层”的关键基础设施之一。Cloudflare 于 2019 年 9 月 13 日在纽约证券交易所上市。

北京时间 19:17(伦敦时间 11:17),Cloudflare 状态页显示,其支持门户出现故障,客户在查看或回复支持工单时可能遇到错误。大约半小时后,Cloudflare 再次更新称公司正在经历“内部服务故障”,部分服务可能会出现间歇性异常。

又过了约 20 分钟,Cloudflare 表示整体中断情况已开始缓解,但仍在调查问题根源。至北京时间 21:13,官方最新状态指出,部分服务的错误率“已恢复到事件发生前的水平”,同时团队正在继续恢复其余受影响的服务。

X、ChatGPT 等多个互联网平台仍受到此次故障影响。X 上用户的帖子会显示“无法载入”等提示,访问仍不稳定。

Cloudflare 历史关键时间线

技术分析:为什么会看到 Cloudflare 返回 500

1. Cloudflare 的基本工作方式

2. 边缘节点返回 500 的常见原因

3. Cloudflare 常见错误码对照

编码 说明
500 通用错误,source 或 Cloudflare 本身都可能产生。
502 Bad Gateway,Cloudflare→源站连接问题。
520 源站返回空或格式不正确的响应。
521 源站拒绝连接。
522 Cloudflare→源站连接超时。
524 源站处理超时。

4. 工程上如何确认是 Cloudflare 问题

  1. 绕过 Cloudflare 测试源站:
    curl -I -H "Host: yourdomain.com" http://YOUR_ORIGIN_IP
  2. 看响应头是否含 server: cloudflarecf-ray
  3. 查看 Cloudflare 状态页:https://www.cloudflarestatus.com/
  4. 如使用 Workers,检查日志与堆栈信息。
  5. 必要时暂停 Cloudflare(“Pause Cloudflare on Site”)并确认源站可用性。

5. 为什么故障影响面巨大

工程建议(可实践)

快速诊断手册(给工程师)

  1. 绕过 Cloudflare 访问源站:确认是否是源站本身故障。
  2. 查看响应头是否含 Cloudflare 标识。
  3. 查看 status 页面是否有大规模宕机。
  4. 用不同地区的 curl/Pingdom/UptimeRobot 对比确认是否是区域性还是全球性问题。

再强的基础设施也会宕机。互联网架构虽然理论去中心化,但现实中高度依赖少数大型服务商。

前几周的AWS因为dynamodb的DNSRace Condition的BUG,也是影响了互联网大半个江山,因为都是互联网基础服务,不过CloudFlare更是,因为从用户在浏览器打域名后,CloudFlare就接管了,只是到最后面的服务器不是在CloudFlare,前面的流量都被CF牢牢控制。从另一个角度也说明了CF的重要性,掌握了入口和流量。

这次 Cloudflare 宕机是一次非常典型的 “单点故障课” – Single Point of Failure

早上11点多的时候收到大量的服务报警邮件

想到X上发个推,发现X也是不能用。

CloudFlare这次影响之广,好多网梗。

cloudflarestatus上实时更新

CloudFlare股价下跌,感觉是受这次事故影响。

整个互联网好脆弱

没法摸鱼,因为微软网站都可以用,还得继续搬砖写代码。不过ChatGPT用不了,感觉效率大大降低(但是可以试试其它服务,比如Copilot)

新闻/实事/经济

强烈推荐

微信公众号: 小赖子的英国生活和资讯 JustYYUK

阅读 桌面完整版
Exit mobile version