在一个月内,全球互联网经历了第三次大规模服务中断。今晨,Cloudflare这家网络基础设施巨头出现故障,导致包括X、ChatGPT、Spotify、Canva甚至故障追踪平台DownDetector在内的众多网站数小时无法访问,用户只能看到错误提示页面。
互联网性能监控平台Catchpoint的CEO Mehdi Daoudi指出,这一系列中断事件应该成为企业的“警钟”。他表示:“企业将所有资源都放在一个篮子里,出现问题时就感到惊讶。确保系统冗余和弹性是企业的责任。”
这起事件紧随微软Azure和亚马逊云服务(AWS)的故障之后发生,三起重大中断事件仅相隔一周。这些故障导致依赖这些主要服务商的网站大面积瘫痪。Cloudflare作为互联网重要基础设施提供商,其内容分发网络支撑着全球约20%的网站流量,同时为35%的财富500强企业和数百万其他客户提供服务。
尽管Cloudflare以其快速的性能和安全性著称,但此次中断凸显了网络基础设施行业的高度集中化。Signal总裁Meredith Whittaker在AWS故障导致其服务中断后坦言:“实际上,整个技术栈都被3-4家巨头掌控。”
Cloudflare将此次故障归因于一个配置文件问题。发言人Jackie Dutton解释说:“故障的根本原因是一个自动生成的威胁流量管理配置文件。该文件超出了预期的条目大小,导致处理多个Cloudflare服务的软件系统崩溃。”
SANS研究所人工智能与研究主管Rob Lee分析认为:“在Cloudflare这样的规模下运营基础设施,即使是很小的偏差也可能产生巨大的连锁反应。这些平台为速度而构建,任何延迟或中止决策的因素都可能迅速蔓延。”
值得注意的是,AWS最近的大范围中断也归咎于“有缺陷的自动化”引发的连锁问题。Daoudi提出关键问题:“每次Cloudflare打喷嚏时,你都要抱怨吗?还是你会围绕这个问题构建解决方案?”
随着网络基础设施日益集中,服务中断已从“是否会发生”转变为“何时会发生”的问题。企业需要认真考虑建立有效的备份方案,以应对不可避免的服务中断风险。





