解释 IT 领域为何缺乏大规模研究

IT 从业者每天都在索要这类研究，然而它们却并不存在–针对 IT 硬件和软件的大规模风险与性能研究。这涵盖了极为广泛的可能性，但常见的例子包括不同服务器型号、硬盘、操作系统、RAID 阵列类型、台式机、笔记本电脑等之间的故障率，凡此种种，不一而足。然而，无论这类数据的需求多么旺盛，可供获取的数据却一概没有。这怎么可能呢。

当然，并非所有情形都相同，但总体而言，有三个真正重要的因素在起作用，使得这类数据无法进入这一领域。它们是开展一项研究的高昂成本、一项研究所必需的漫长时间跨度，以及缺乏制作和/或与其他公司分享此类数据的动力。

成本是迄今为止最大的因素。如果能够克服大规模研究的成本，那么所有其他因素都能找到相应的解决办法。但遗憾的是，大规模研究的本质决定了它必然代价高昂。作为一个例子，我们可以看看服务器的可靠性比率。

为了确定一台服务器的故障率，我们需要大量的服务器来收集这类数据。这或许看起来是个极端的例子，但服务器故障率正是最常被索要的大规模研究数据之一，因此这个例子很重要。对于一项规模非常小的研究，我们或许需要几百台服务器，但若要获得具有统计学意义的数据，我们很可能需要数千台服务器。如果我们假设一台服务器为五千美元（这属于相对入门级的服务器），那么我们面对的就是轻轻松松两千五百万美元的设备！而这还仅仅够对一种成本相当低的设备做一次规模偏小的测试（仅仅五千台服务器）。如果我们谈论的是企业级服务器，那么每台服务器轻松就要三万甚至五万美元，从而把成本推高到二点五亿美元。

当然，这一成本是针对测试单一型号服务器的单一配置而言的。可以想见，要让一项研究有意义，我们就需要许多不同型号的服务器。或许每家供应商各取若干，以比较不同的产品线和功能。或许还要涵盖许多不同的供应商。不难看出，一项研究的成本会多么迅速地变得大到不切实际。

然而，这还只是成本的开端。要做好一项研究，将需要与最优秀的数据中心相当的、受到严格控制的环境，以尽可能地隔离环境因素。这意味着高度可靠的供电、制冷、气流、湿度控制、振动和粉尘控制。像这样优良的设施非常昂贵，这也是许多公司不愿为之付费的原因，即便对于有价值的生产工作负载也是如此。在一项大规模研究中，这笔成本在研究的整个过程中很容易就会超过设备本身的成本。

然后，当然，我们还必须解决对专用传感器和测试的需求。究竟什么才算一次故障？即便在生产系统中，对此往往也存在争议。阵列中一块硬盘发生故障算不算一次故障，即便该阵列并未失效？预测性故障算不算一次故障？如果在研究中处理硬盘故障，你又该如何把诸如更换硬盘这样的人为因素计入其中——而这些操作未必是以统一的方式完成的？处理这些问题是有办法的，但它们增加了复杂性，并使研究偏离真实世界的数据，转而变成为研究而人为设计的数据。制定出对终端用户既适用又有用的研究准则，要比看上去困难得多。

而最大的成本，是人工。维护一个用于大规模研究的环境将耗费人力资本，其成本可能与研究本身的成本相当。维护研究环境、运行研究本身、对其进行监控并收集数据，都需要大量的人手。总而言之，这些成本通常来说根本就无法承担。

当然，我们可以大幅缩减测试规模，只运行少数几台服务器、只测两三种型号，但这样一来测试的价值会迅速下降，并且在仍然花费了一大笔钱的同时，还有可能落得一个无人能用的结果。

第二个无法逾越的问题是时间。大多数事物都需要在一段时间内进行故障率测试，而由于 IT 设备通常被设计为能可靠运行数十年，收集故障率数据需要许多年。平均无故障时间（Mean Time to Failure）这一数字的价值终究有限，平均故障间隔时间（Mean Time Between Failures）以及故障类型、故障模式和有关该故障的统计数据，对于一项研究是否有用至关重要。这意味着，一项研究要想真正有用，就必须运行非常长的时间，从而带来越来越大的成本。

但这还不是最大的问题。远为严重的问题在于，一项研究要有足够的时间来生成有用的故障数据，那么即便这些数据是在故障发生时“实时”产生的，到那时也已经太迟了。等到这项研究开始产出真正有用的早期结果时，相关设备在生产市场上其实已经在老化，并正接近更换的时间。生产设备往往只是按照总共三到五年的总寿命来采购的。即便是在这一周期进行到第一年时所得到的结果，价值也微乎其微。而且，新产品取代研究中那些产品的速度，甚至可能比产品自然老化的速度还要快，这就使得该研究仅在历史的语境下才有价值，而在用于生产决策这一角色、确定选型方面毫无用处——等到结果可供使用时，它们早已陈旧得派不上用场了。

最后一个主要因素是缺乏向需要数据的人提供既有数据的动力。虽然数据来源屈指可数（确实存在少数几个），但几乎所有这些数据都不完整，并且是为大型供应商衡量其自身设备质量、故障率之类而存在的。这些数据很少是在受控环境中得出的，往往涉及从现场收集的数据。在许多情况下，这些数据甚至可能属于客户的隐私，无论如何在法律上都无法被分享。

但收集数据的供应商并不是以一种统一、受监控的方式来收集数据的，因此分享这些数据可能对它们极为不利，因为无法保证其竞争对手会有同等的数据。像那样不受控的统计数据既无法给市场带来任何真正的益处，对拥有这些数据的供应商也毫无好处，因此供应商有强烈的动机将此类数据严加保密。

少有的例外，是来自诸如 Google 和 BackBlaze 这类供应商的一些硬件研究。它们在相对受控的环境中拥有大量消费级硬盘，并为自身目的收集故障率，同时几乎不存在竞争对手借助这些数据带来的风险，反倒在公关方面有其价值，因此它们偶尔会发布一项小范围的硬件可靠性研究。这些研究被业界如饥似渴地吞食，尽管它们通常所含价值相对有限，因为其数据陈旧、所处的条件和阈值不明，并且往往不包含可用于产品比较的、具有统计学意义的数据，而充其量包含一些大致的、覆盖全行业的统计趋势，对于预测未来可靠性走向勉强算得上有那么一点用处。

大多数其他规模足以拥有内部可靠性统计数据的公司，都只在很窄的设备范围内拥有这些数据，并将该信息视为专有信息、一旦泄露便构成潜在风险（它会透露出架构实现的重要细节）以及一项竞争优势。因此，出于这些原因，它们不会被分享。

我实际上很幸运地参与并主持过一项大规模存储可靠性测试，该测试是以一种相当非正式、但极有价值的方式进行的，对象是一万多台企业级服务器、历时八年，累计形成了八万个服务器年的研究，这是一次难得的机会。但那项研究所得出的结论是：尽管它极其有价值，它主要表明的是，在如此庞大的样本集上，我们竟然仍未能观测到哪怕一次故障！故障的缺席，本身就极有价值。但我们无法得出任何诸如平均无故障时间之类的标准统计量。要生成人们所期望的那类数据，我们知道，至少需要数十万个服务器年才能获得某种统计学意义，但我们无法可靠地断言即便那样就足够了。或许需要数百万个服务器年才行。这是无从真正知晓的。

这一切给我们留下的结论是：IT 领域的大规模研究根本就不存在，而且很可能永远不会存在。即便偶尔出现，它们也将是孤立的，并且几乎肯定会被现实的种种必然条件所制约而残缺不全。没有任何途径能够把规模大到足以有用的研究变现，这主要是因为企业级设备的故障率如此之低，而设备又如此昂贵，所以第三方公司永远无法收回提供此类研究的成本。作为一个行业，我们必须接受这类数据并不存在的事实，并积极寻求在无法获取此类数据的情况下的替代方案。令人惊讶的是，明明这类数据在历史上从未存在过，业内却有如此之多的人期待它唾手可得。

考虑到这一真空，我们仅有的真正选项是：收集现有的那些轶事性证据（这是一件非常危险的事，需要审慎地考量其背景），以及运用逻辑来评估各种可靠性的方法与技术。这是一种普遍的处境：观察必然让我们失望，唯有逻辑和直觉才能用来填补由此产生的知识空白。

标签agent buyers agent sellers agent vendor

更多阅读.

销售的社会契约

何时应当考虑高可用性？

重新审视长期支持版本