一项新的业内研究指出,数据中心停机事件仍在发生,尽管停机频率正在下降。
Uptime Institute 发布了第七份年度停机分析报告,显示尽管整体停机频率持续下降,但与电源相关的问题依然是数据中心运营商主要担忧的问题,而当故障发生时,成本却不断上升。
2025 年数据中心停机分析报告与该机构 2024 年报告中的许多核心主题相呼应,后者也指出,随着多年整体趋势的改善,停机事件正在减少。
该研究结合了多种数据来源,包括 Uptime Institute 全球调查、机构成员和合作伙伴提供的信息,以及通过新闻和社交媒体公开报道的事件数据库。
2025 年报告的主要发现包括: 53% 的运营商报告称过去三年内发生过停机事件,而这一比例在 2020 年为 78%。 2024 年报告的停机事件中,只有 9% 被归类为严重或极严重,这是 Uptime Institute 迄今记录的最低水平。 在 54% 的重大停机案例中,故障原因主要归结于电源问题。 未能严格遵守流程的员工比例较 2024 年上升了 10 个百分点。 54% 的受访者表示,他们最近一次重大停机事件造成的损失超过 100,000 美元,其中 20% 的受访者报告损失超过 1,000,000 美元。 80% 的运营商认为,更好的管理和流程本可以防止最近发生的停机事故。
Uptime Institute 研究执行董事 Andy Lawrence 在一场详细介绍报告发现的网络研讨会上表示:“大多数数据中心运营商的停机事件非常罕见,但当然,一旦发生,其后果往往相当严重。”
在日益复杂的环境中停机频率持续下降
报告显示,尽管基础设施日益复杂,整个行业在数据中心停机预防方面都在不断改善,这延续了连续四年下降的事故趋势。
Lawrence 表示:“相较于数字基础设施的快速增长,停机事件正变得越来越少且不再严重。这一趋势已经持续了数年,彰显了业界在风险管理和可靠性方面的进步。”
尽管取得了一定进展,但新的风险正在出现,这可能会对行业可靠性改善提出挑战。Uptime Institute 指出,其中一个新风险就是气候变化。近年来,与气候变化影响相关的停机事件呈现上升趋势,例如极高温度或由于火灾或烟雾导致的停电。
电源问题主导停机原因
与电源相关的故障仍然是数据中心运营商主要关注的问题,其中不间断电源 ( UPS ) 的故障尤为突出。
Uptime Institute 首席技术官 Chris Brown 解释道:“数据中心中的每一台设备,无论是设施设备还是 IT 设备,都需要电源来运行,而电源问题往往是无情的。”
Brown 指出,UPS 硬件是应对来自电网和系统层面异常电源问题的最后防线。他预计,随着 AI 技术对电力需求的增加,电源问题将会继续成为数据中心运营商日益严峻的挑战。
Brown 说:“随着这些密度的提高,以及数据中心整体电力需求的增加,系统将承受更大的压力,这将提高数据中心发生事故的可能性。”
人为错误:可预防的问题
虽然应对电源故障并不容易,但数据中心停机的另一个常见原因——人为错误,应该更容易改进。
报告反复发现,人为错误占所有停机事件的三分之二至四分之三。其中一个显著趋势是数据中心员工未能遵守既定流程的比例有所上升,Brown 将其归因于行业的快速增长和培训不足。
Brown 解释道:“我们看到人员在为数据中心制定流程和程序,并在数据中心上线之前为经验非常有限的人提供基础培训方面遇到了困难。”
Uptime Institute 希望数据中心运营商在未来几年能够通过改进培训、流程、程序和沟通,从根本上解决导致人为错误的问题,从而取得进步。
Lawrence 表示:“这些都是我们可以控制的,这或许是最简单且成本最低的方法,可以减少停机事件发生的可能性。”
本文链接:http://www.xihao.site/showinfo-1-76056.html数据中心停机连续第四年下降,但问题依旧存在