CloudFlare宕机, 半个互联网崩了


今天的 Cloudflare 宕机:一次震撼全球的“单点故障”

今天早上,我突然收到了一大堆报警,我手下的15个网站都报警了,收到了很多邮件,这很不正常,有的时候是报警的程序自己的问题,因为其中的一个邮件报警是我自己写的。 但是我核实了一下,确实打不开,显示是500服务器内部错误,这个错误一般就是服务器配置错误崩溃造成的。但我细眼一看,是CloudFlare的服务器的问题。这可是我第一次见。

Cloudflare 已经是互联网基础设施级服务,一旦宕机影响面巨大。这次事故暴露了去中心化互联网在实际运行中高度中心化的问题。

CloudFlare按现在最新数据,有750万个网站,排名/流量最高的1万个中有33%是用CloudFlare,所以这次宕机的影响之深,还好,这次友宕机也就三个小时左右,这次宕机影响到了很多服务,其中X和ChatGPT都打不开了,中间还陆陆续续间断的恢复过几分钟时间。

18 日,全球知名的网络基础设施服务商 Cloudflare 发布公告称,其全球网络出现大范围异常,导致大量网站和应用出现访问中断。受影响的平台包括 X(前 Twitter)、ChatGPT 等多家核心互联网服务,有媒体报道称 Spotify、亚马逊部分服务也出现了故障。

受此次事故影响,Cloudflare 股价在盘前一度下跌超过 5%。

按照官网介绍,Cloudflare 是一家全球性的云网络平台,为各类规模的企业提供安全加速、内容分发、DNS、零信任等服务。其数据传输网络覆盖全球 125 个国家、330 座城市,是互联网“入口层”的关键基础设施之一。Cloudflare 于 2019 年 9 月 13 日在纽约证券交易所上市。

北京时间 19:17(伦敦时间 11:17),Cloudflare 状态页显示,其支持门户出现故障,客户在查看或回复支持工单时可能遇到错误。大约半小时后,Cloudflare 再次更新称公司正在经历“内部服务故障”,部分服务可能会出现间歇性异常。

又过了约 20 分钟,Cloudflare 表示整体中断情况已开始缓解,但仍在调查问题根源。至北京时间 21:13,官方最新状态指出,部分服务的错误率“已恢复到事件发生前的水平”,同时团队正在继续恢复其余受影响的服务。

X、ChatGPT 等多个互联网平台仍受到此次故障影响。X 上用户的帖子会显示“无法载入”等提示,访问仍不稳定。

Cloudflare 历史关键时间线

  • 2009:Cloudflare 成立(创始人:Matthew Prince、Lee Holloway、Michelle Zatlyn)。
  • 2010–2015:从 CDN 起家,加入 DDoS、防火墙、DNS、边缘计算等产品。
  • 2019-09-13Cloudflare 在 NYSE 上市,代码 NET
  • 2020–2024:推出 1.1.1.1、Zero Trust、Workers、R2 等,逐步成为互联网“前门”。
  • 市场占有率:全球流量最高前 10,000 个网站中约三成使用 Cloudflare(各统计口径有差异,约在 30% 左右)。

技术分析:为什么会看到 Cloudflare 返回 500

1. Cloudflare 的基本工作方式

  • 用户访问域名 → DNS 指向 Cloudflare Anycast 边缘/Edge节点。
  • Cloudflare 作为反向代理:处理缓存、加速、TLS、WAF、Workers。
  • 然后 Cloudflare 再把请求转发给源站(origin)。

2. 边缘节点返回 500 的常见原因

  • 源站真实返回 500:Cloudflare 将错误透传。
  • Cloudflare 内部组件异常:代理池、缓存层、Workers、WAF 崩溃导致边缘自身返回 5xx。
  • 边缘与源站连接失败:握手超时或连接异常,本应返回 502/524,但部分情况可能回落为 500。
  • SSL/TLS 配置冲突:证书或协议版本不匹配导致处理失败。
  • Workers 运行异常:未捕获异常直接导致 500。

3. Cloudflare 常见错误码对照

编码 说明
500 通用错误,source 或 Cloudflare 本身都可能产生。
502 Bad Gateway,Cloudflare→源站连接问题。
520 源站返回空或格式不正确的响应。
521 源站拒绝连接。
522 Cloudflare→源站连接超时。
524 源站处理超时。

4. 工程上如何确认是 Cloudflare 问题

  1. 绕过 Cloudflare 测试源站:
    curl -I -H "Host: yourdomain.com" http://YOUR_ORIGIN_IP
  2. 看响应头是否含 server: cloudflarecf-ray
  3. 查看 Cloudflare 状态页:https://www.cloudflarestatus.com/
  4. 如使用 Workers,检查日志与堆栈信息。
  5. 必要时暂停 Cloudflare(“Pause Cloudflare on Site”)并确认源站可用性。

5. 为什么故障影响面巨大

  • 大量网站的 DNS + 代理都托管在 Cloudflare。
  • Cloudflare 是“入口层”,入口挂了源站再健康也没办法。
  • 对许多服务来说,Cloudflare 就是互联网对外公开的“唯一入口”。

工程建议(可实践)

  • 多 DNS、多 CDN 架构:降低对单一供应商的依赖。
  • 开启缓存 fallback:为内容站点提供 Always Online 类体验。
  • 健康检查 + 自动切换:重要 API 建议多云部署。
  • 边缘脚本不要走关键路径:Workers 出错会影响所有请求。
  • 制定应急回滚流程:包括 DNS 回滚、IP 直连、信息通告模板等。

快速诊断手册(给工程师)

  1. 绕过 Cloudflare 访问源站:确认是否是源站本身故障。
  2. 查看响应头是否含 Cloudflare 标识。
  3. 查看 status 页面是否有大规模宕机。
  4. 用不同地区的 curl/Pingdom/UptimeRobot 对比确认是否是区域性还是全球性问题。

再强的基础设施也会宕机。互联网架构虽然理论去中心化,但现实中高度依赖少数大型服务商。

前几周的AWS因为dynamodb的DNSRace Condition的BUG,也是影响了互联网大半个江山,因为都是互联网基础服务,不过CloudFlare更是,因为从用户在浏览器打域名后,CloudFlare就接管了,只是到最后面的服务器不是在CloudFlare,前面的流量都被CF牢牢控制。从另一个角度也说明了CF的重要性,掌握了入口和流量。

这次 Cloudflare 宕机是一次非常典型的 “单点故障课” – Single Point of Failure

alarm-emails-after-cloudflare-incident CloudFlare宕机, 半个互联网崩了 CloudFlare I.T. 资讯

早上11点多的时候收到大量的服务报警邮件

cloudflare-500-error CloudFlare宕机, 半个互联网崩了 CloudFlare I.T. 资讯

想到X上发个推,发现X也是不能用。

cloudflare-500-meme-scaled CloudFlare宕机, 半个互联网崩了 CloudFlare I.T. 资讯

CloudFlare这次影响之广,好多网梗。

cloudflare-status-page CloudFlare宕机, 半个互联网崩了 CloudFlare I.T. 资讯

cloudflarestatus上实时更新

cloudflare-stock-price-dropped-after-incident-on-the-day CloudFlare宕机, 半个互联网崩了 CloudFlare I.T. 资讯

CloudFlare股价下跌,感觉是受这次事故影响。

internet-cloudflare CloudFlare宕机, 半个互联网崩了 CloudFlare I.T. 资讯

整个互联网好脆弱

没法摸鱼,因为微软网站都可以用,还得继续搬砖写代码。不过ChatGPT用不了,感觉效率大大降低(但是可以试试其它服务,比如Copilot)

新闻/实事/经济

本文一共 1670 个汉字, 你数一下对不对.
CloudFlare宕机, 半个互联网崩了. (AMP 移动加速版本)
上一篇: 组合数学: 简介一(帕斯卡三角/二项式系数)
下一篇: 为什么并行不是无限的: 简单解释 Amdahl vs Gustafson

扫描二维码,分享本文到微信朋友圈
bf77ec48fada68d372abe9a6305d5914 CloudFlare宕机, 半个互联网崩了 CloudFlare I.T. 资讯

评论