创立于 2008 年 · 数字版 · 2026年6月15日

SMB IT Journal

面向小型企业的信息技术资源

中文
IT 业务

解释 IT 领域为何缺乏大规模研究

IT 从业者每天都在索要这类研究,然而它们却并不存在–针对 IT 硬件和软件的大规模风险与性能研究。这涵盖了极为广泛的可能性,但常见的例子包括不同服务器型号、硬盘、操作系统、RAID 阵列类型、台式机、笔记本电脑等之间的故障率,凡此种种,不一而足。然而,无论这类数据的需求多么旺盛,可供获取的数据却一概没有。这怎么可能呢。

当然,并非所有情形都相同,但总体而言,有三个真正重要的因素在起作用,使得这类数据无法进入这一领域。它们是开展一项研究的高昂成本、一项研究所必需的漫长时间跨度,以及缺乏制作和/或与其他公司分享此类数据的动力。

成本是迄今为止最大的因素。如果能够克服大规模研究的成本,那么所有其他因素都能找到相应的解决办法。但遗憾的是,大规模研究的本质决定了它必然代价高昂。作为一个例子,我们可以看看服务器的可靠性比率。

为了确定一台服务器的故障率,我们需要大量的服务器来收集这类数据。这或许看起来是个极端的例子,但服务器故障率正是最常被索要的大规模研究数据之一,因此这个例子很重要。对于一项规模非常小的研究,我们或许需要几百台服务器,但若要获得具有统计学意义的数据,我们很可能需要数千台服务器。如果我们假设一台服务器为五千美元(这属于相对入门级的服务器),那么我们面对的就是轻轻松松两千五百万美元的设备!而这还仅仅够对一种成本相当低的设备做一次规模偏小的测试(仅仅五千台服务器)。如果我们谈论的是企业级服务器,那么每台服务器轻松就要三万甚至五万美元,从而把成本推高到二点五亿美元。

当然,这一成本是针对测试单一型号服务器的单一配置而言的。可以想见,要让一项研究有意义,我们就需要许多不同型号的服务器。或许每家供应商各取若干,以比较不同的产品线和功能。或许还要涵盖许多不同的供应商。不难看出,一项研究的成本会多么迅速地变得大到不切实际。

然而,这还只是成本的开端。要做好一项研究,将需要与最优秀的数据中心相当的、受到严格控制的环境,以尽可能地隔离环境因素。这意味着高度可靠的供电、制冷、气流、湿度控制、振动和粉尘控制。像这样优良的设施非常昂贵,这也是许多公司不愿为之付费的原因,即便对于有价值的生产工作负载也是如此。在一项大规模研究中,这笔成本在研究的整个过程中很容易就会超过设备本身的成本。

然后,当然,我们还必须解决对专用传感器和测试的需求。究竟什么才算一次故障?即便在生产系统中,对此往往也存在争议。阵列中一块硬盘发生故障算不算一次故障,即便该阵列并未失效?预测性故障算不算一次故障?如果在研究中处理硬盘故障,你又该如何把诸如更换硬盘这样的人为因素计入其中——而这些操作未必是以统一的方式完成的?处理这些问题是有办法的,但它们增加了复杂性,并使研究偏离真实世界的数据,转而变成为研究而人为设计的数据。制定出对终端用户既适用又有用的研究准则,要比看上去困难得多。

而最大的成本,是人工。维护一个用于大规模研究的环境将耗费人力资本,其成本可能与研究本身的成本相当。维护研究环境、运行研究本身、对其进行监控并收集数据,都需要大量的人手。总而言之,这些成本通常来说根本就无法承担。

当然,我们可以大幅缩减测试规模,只运行少数几台服务器、只测两三种型号,但这样一来测试的价值会迅速下降,并且在仍然花费了一大笔钱的同时,还有可能落得一个无人能用的结果。

第二个无法逾越的问题是时间。大多数事物都需要在一段时间内进行故障率测试,而由于 IT 设备通常被设计为能可靠运行数十年,收集故障率数据需要许多年。平均无故障时间(Mean Time to Failure)这一数字的价值终究有限,平均故障间隔时间(Mean Time Between Failures)以及故障类型、故障模式和有关该故障的统计数据,对于一项研究是否有用至关重要。这意味着,一项研究要想真正有用,就必须运行非常长的时间,从而带来越来越大的成本。

但这还不是最大的问题。远为严重的问题在于,一项研究要有足够的时间来生成有用的故障数据,那么即便这些数据是在故障发生时“实时”产生的,到那时也已经太迟了。等到这项研究开始产出真正有用的早期结果时,相关设备在生产市场上其实已经在老化,并正接近更换的时间。生产设备往往只是按照总共三到五年的总寿命来采购的。即便是在这一周期进行到第一年时所得到的结果,价值也微乎其微。而且,新产品取代研究中那些产品的速度,甚至可能比产品自然老化的速度还要快,这就使得该研究仅在历史的语境下才有价值,而在用于生产决策这一角色、确定选型方面毫无用处——等到结果可供使用时,它们早已陈旧得派不上用场了。

最后一个主要因素是缺乏向需要数据的人提供既有数据的动力。虽然数据来源屈指可数(确实存在少数几个),但几乎所有这些数据都不完整,并且是为大型供应商衡量其自身设备质量、故障率之类而存在的。这些数据很少是在受控环境中得出的,往往涉及从现场收集的数据。在许多情况下,这些数据甚至可能属于客户的隐私,无论如何在法律上都无法被分享。

但收集数据的供应商并不是以一种统一、受监控的方式来收集数据的,因此分享这些数据可能对它们极为不利,因为无法保证其竞争对手会有同等的数据。像那样不受控的统计数据既无法给市场带来任何真正的益处,对拥有这些数据的供应商也毫无好处,因此供应商有强烈的动机将此类数据严加保密。

少有的例外,是来自诸如 Google 和 BackBlaze 这类供应商的一些硬件研究。它们在相对受控的环境中拥有大量消费级硬盘,并为自身目的收集故障率,同时几乎不存在竞争对手借助这些数据带来的风险,反倒在公关方面有其价值,因此它们偶尔会发布一项小范围的硬件可靠性研究。这些研究被业界如饥似渴地吞食,尽管它们通常所含价值相对有限,因为其数据陈旧、所处的条件和阈值不明,并且往往不包含可用于产品比较的、具有统计学意义的数据,而充其量包含一些大致的、覆盖全行业的统计趋势,对于预测未来可靠性走向勉强算得上有那么一点用处。

大多数其他规模足以拥有内部可靠性统计数据的公司,都只在很窄的设备范围内拥有这些数据,并将该信息视为专有信息、一旦泄露便构成潜在风险(它会透露出架构实现的重要细节)以及一项竞争优势。因此,出于这些原因,它们不会被分享。

我实际上很幸运地参与并主持过一项大规模存储可靠性测试,该测试是以一种相当非正式、但极有价值的方式进行的,对象是一万多台企业级服务器、历时八年,累计形成了八万个服务器年的研究,这是一次难得的机会。但那项研究所得出的结论是:尽管它极其有价值,它主要表明的是,在如此庞大的样本集上,我们竟然仍未能观测到哪怕一次故障!故障的缺席,本身就极有价值。但我们无法得出任何诸如平均无故障时间之类的标准统计量。要生成人们所期望的那类数据,我们知道,至少需要数十万个服务器年才能获得某种统计学意义,但我们无法可靠地断言即便那样就足够了。或许需要数百万个服务器年才行。这是无从真正知晓的。

这一切给我们留下的结论是:IT 领域的大规模研究根本就不存在,而且很可能永远不会存在。即便偶尔出现,它们也将是孤立的,并且几乎肯定会被现实的种种必然条件所制约而残缺不全。没有任何途径能够把规模大到足以有用的研究变现,这主要是因为企业级设备的故障率如此之低,而设备又如此昂贵,所以第三方公司永远无法收回提供此类研究的成本。作为一个行业,我们必须接受这类数据并不存在的事实,并积极寻求在无法获取此类数据的情况下的替代方案。令人惊讶的是,明明这类数据在历史上从未存在过,业内却有如此之多的人期待它唾手可得。

考虑到这一真空,我们仅有的真正选项是:收集现有的那些轶事性证据(这是一件非常危险的事,需要审慎地考量其背景),以及运用逻辑来评估各种可靠性的方法与技术。这是一种普遍的处境:观察必然让我们失望,唯有逻辑和直觉才能用来填补由此产生的知识空白。

标签agent buyers agent sellers agent vendor

广告

SMB IT Journal — the IT resource for small business