云服务中断频发：企业为何必须建立冗余备份机制

在一个月内，全球互联网经历了第三次大规模服务中断。今晨，Cloudflare这家网络基础设施巨头出现故障，导致包括X、ChatGPT、Spotify、Canva甚至故障追踪平台DownDetector在内的众多网站数小时无法访问，用户只能看到错误提示页面。

互联网性能监控平台Catchpoint的CEO Mehdi Daoudi指出，这一系列中断事件应该成为企业的“警钟”。他表示：“企业将所有资源都放在一个篮子里，出现问题时就感到惊讶。确保系统冗余和弹性是企业的责任。”

这起事件紧随微软Azure和亚马逊云服务(AWS)的故障之后发生，三起重大中断事件仅相隔一周。这些故障导致依赖这些主要服务商的网站大面积瘫痪。Cloudflare作为互联网重要基础设施提供商，其内容分发网络支撑着全球约20%的网站流量，同时为35%的财富500强企业和数百万其他客户提供服务。

尽管Cloudflare以其快速的性能和安全性著称，但此次中断凸显了网络基础设施行业的高度集中化。Signal总裁Meredith Whittaker在AWS故障导致其服务中断后坦言：“实际上，整个技术栈都被3-4家巨头掌控。”

Cloudflare将此次故障归因于一个配置文件问题。发言人Jackie Dutton解释说：“故障的根本原因是一个自动生成的威胁流量管理配置文件。该文件超出了预期的条目大小，导致处理多个Cloudflare服务的软件系统崩溃。”

SANS研究所人工智能与研究主管Rob Lee分析认为：“在Cloudflare这样的规模下运营基础设施，即使是很小的偏差也可能产生巨大的连锁反应。这些平台为速度而构建，任何延迟或中止决策的因素都可能迅速蔓延。”

值得注意的是，AWS最近的大范围中断也归咎于“有缺陷的自动化”引发的连锁问题。Daoudi提出关键问题：“每次Cloudflare打喷嚏时，你都要抱怨吗？还是你会围绕这个问题构建解决方案？”

随着网络基础设施日益集中，服务中断已从“是否会发生”转变为“何时会发生”的问题。企业需要认真考虑建立有效的备份方案，以应对不可避免的服务中断风险。