创立于 2008 年 · 数字版 · 2026年6月15日

SMB IT Journal

面向小型企业的信息技术资源

中文
IT 业务

你真的需要冗余吗:停机的真实成本

停机–这是一个没有人愿意听到的词。它让企业、高管,尤其是 IT 人员感到恐惧。停机会带来金钱损失,也会引发挫败感。

由于停机会触发情绪化的反应,企业往往会以不同于传统经营因素的方式来应对它。这种情绪化的处理方式导致企业——尤其是那些常常缺乏理性财务管控的中小企业——把停机看得远比其实际情况严重。我们经常会发现,中小企业因为对潜在停机的恐惧而做出的反应,实际上给自己造成的财务损失,超过了所担心的停机即便真的发生也会造成的损失。这是一种危险的过度反应。

第一步是确定停机的成本。在 IT 领域,我们经常要处理相当复杂的系统,而停机有多种形态,比如访问中断、性能下降,或者一个或多个系统的彻底瘫痪。确定每一种类型的停机及其相关成本可能相当复杂,但一个高层次的概览往往足以制定合理的预算,或者至少是理解停机所涉及的业务风险这一过程中的一个良好起点。请记住,正如为避免停机而花费过多是不可取的,为计算停机成本而花费过多同样不可取。不要在判断自己是否会亏钱这件事上投入如此多的时间和资源,以至于还不如直接承受那笔损失。要警惕决策本身的高昂成本。

我们可以先只考虑系统的彻底瘫痪。对你而言,组织层面停机的成本是多少——也就是说,如果你不得不停止全部业务一个小时或一天,会损失多少钱?在某些情况下,损失可能非常惨重,比如医院,一天的停机会导致信任的丧失和未来客户群的流失,并可能引发诉讼。但在许多情况下,一天的停机对财务的影响可能微乎其微——许多企业完全可以把这一天当作假期,让员工休息一天,然后在接下来的几天里大家多努力一些,把损失那天积压的工作补上。这一切都取决于你的企业如何运营、能够如何运营,以及你在弥补损失时间方面的应对能力有多强。许多企业只会查看每日营收数据来判断损失的收入,但这可能造成极大的误导。

一旦我们对停机成本有了一个粗略的数字,接下来就可以考虑停机风险。这非常难以评估,因为关于 IT 系统可靠性的可靠数据几乎不存在,而且每个组织的系统都如此独特,以至于行业数据几乎毫无用处。在这里,我们不得不依赖 IT 人员来提供风险的总体概览,并且但愿能对各项风险的发生可能性做出可靠的评估。例如,用大致的整数来说,如果我们有一个业务线应用运行在只有一块硬盘的服务器上,那么我们可以预期,在未来五到十年内的某个时候,会因为这块硬盘损坏而出现停机。如果同样这台服务器配备了热插拔硬盘并组成镜像阵列,那么与该存储系统相关的停机可能性,即便放眼十年,也是相当小的。这并不意味着硬盘不太可能损坏——它确实有可能损坏——而是说,在冗余恢复之前,系统很可能不受影响,最终用户也不会察觉发生过任何事情。

我们最后一个粗略估算的工具是套用适用的营业时间。许多企业并非全天候 24×7 运营,当然有些是,但大多数不是。在傍晚六点损失一个业务线应用,是否等同于在上午十点损失同一个应用?周末又如何?周五下午三点是否有人在高效地使用它,还是说损失它几乎不会造成任何代价,反而让员工开心地早一两个小时开始周末?如果损失发生在临近午餐时间,能否调整日程安排?这些因素看似微不足道,却可能影响重大。如果停机被限制在仅仅两到四个小时,那么许多企业只需请员工在日程上稍作灵活安排来配合这次中断,比如提早吃午餐,或者某天早些下班、第二天多工作一个小时,就几乎可以化解掉全部的财务影响。

现在我们有了这些因素–停机的成本、根据持续时间来减轻停机影响的能力,以及中断事件发生的风险——我们就可以开始勾勒出一次停机事件大致会是什么样子。在此基础上,我们便可以开始推算,为降低此类事件的风险,值得花多少钱。对某些企业来说,这个数字会极其高昂,而对另一些企业来说,则会低得令人意外。这个过程能够揭示出许多关于企业运营方式的内情,而这些内情通常并不那么显而易见。

在此有一点很重要,需要指出:我们这里讨论的是系统可用性的丧失,而不是数据的丢失。我们假设已经做了良好的备份,并且这些备份没有受损。冗余和停机并不是与数据丢失相关的话题,而仅仅与可用性丧失相关。数据丢失的情形应当以同等或更高的审慎态度来对待,但那是一个独立的话题。能够在灾难性数据丢失中幸存下来的企业是罕见的,但即便是相当严重的停机,企业也常常能够经历并轻松幸存。

抵御停机有多种方式,冗余非常引人注目,几乎被当作一个流行词来对待,因此受到了大量关注,但还有其他手段。良好的系统设计很重要,避免系统复杂性可以大幅减少停机,只需消除那些不必要的风险点和脆弱环节即可。使用高质量的硬件和软件同样重要–因为具备冗余的低端硬件往往与不具冗余的企业级硬件同样频繁地发生故障。拥有快速的备件供应链可能是一个重要因素,这通常体现为硬件供应商提供四小时备件响应的合同。这个清单还可以继续列下去。我们将聚焦于冗余,因为这正是我们在面对停机恐惧时最有可能过度支出的地方。

既然我们已经知道了缺乏足够冗余的代价,我们就可以把这一潜在成本与提供该冗余所需的、非常实实在在的前期成本进行比较。有些东西,比如硬盘,极有可能发生故障,而且做成冗余相对容易、性价比也高–它把重大风险化解为微不足道。这些往往是首先关注的对象。但需要考虑冗余的领域还有很多,比如电源、网络硬件、互联网连接,乃至整个系统–后者如今常常通过现代虚拟化技术实现冗余,为许多以往难以企及的中小企业提供了新的冗余途径。

新型的冗余,尤其是那些通过虚拟化实现的冗余,往往是企业相对于停机风险而言容易过度支出的地方,而且可能严重超支。更糟糕的是,在追逐冗余领域最新潮流的过程中,企业常常会错误地实施这些技术,结果与什么都不做相比,反而引入了更大的风险和更高的停机可能性。如今越来越常见的情形是,企业花费数万甚至数十万美元,试图去化解仅仅几千美元的停机金钱损失–然后在这一尝试中失败,最终反而增加了自己的风险。

在衡量缓解措施的成本时,至关重要的是要记住:缓解是一笔确定的开支,而风险只是一种风险。这很像汽车保险,你每月支付一笔确定的小额费用,以抵御一笔巨大的、计划之外的开支。风险缓解的理论是现在花费一笔相对较少的钱,以降低日后产生一笔巨大开支的风险,但如果缓解的成本变得过高,那么干脆接受风险反而更好。

当然,系统可以逐个进行评估。让网站和电话系统始终保持运行,远比电子邮件系统重要得多,因为后者即便停机数小时,外部客户也不太可能察觉。只为那些停机成本重大的系统付费加以保护,是一项重要的策略。

如果你发现,对于你的大多数乃至全部系统而言,除了一些非常基础的冗余(比如镜像硬盘)之外,只需一个简单的网络设计,加上良好的备份与恢复方案以及一份优质的硬件支持合同就足够了,请不要感到意外。通过降低系统的复杂性,你会使它们自然而然地更加稳定、更易于管理–从而进一步降低你的 IT 基础设施成本。

标签cost analysis downtime redundancy reliability risk uptime

广告

SMB IT Journal — the IT resource for small business