Een Verklaring voor het Gebrek aan Grootschalige Studies in de IT

IT-professionals vragen er dagelijks om, en toch bestaan ze niet – grootschalige risico- en prestatiestudies voor IT-hardware en -software. Dit beslaat een breed scala aan mogelijkheden, maar gangbare voorbeelden zijn uitvalpercentages tussen verschillende servermodellen, harde schijven, besturingssystemen, RAID-arraytypes, desktops, laptops, noem maar op. En toch, ongeacht de grote vraag naar dergelijke gegevens, is er niets beschikbaar. Hoe kan dit?
Niet alle gevallen zijn natuurlijk hetzelfde, maar over het geheel genomen zijn er drie werkelijk belangrijke factoren die een rol spelen waardoor dit soort gegevens het veld niet binnenkomt. Dit zijn de hoge kosten van het uitvoeren van een studie, de lange tijdsspanne die voor een studie nodig is en een gebrek aan prikkel om deze gegevens te produceren en/of te delen met andere bedrijven.
Kosten zijn verreweg de grootste factor. Als de kosten van grootschalige studies konden worden overwonnen, zouden voor alle andere factoren oplossingen kunnen worden gevonden. Maar helaas is het de aard van een grootschalige studie dat deze kostbaar zal zijn. Als voorbeeld kunnen we kijken naar de betrouwbaarheidspercentages van servers.
Om de uitvalpercentages van een server te bepalen, hebben we een groot aantal servers nodig om deze gegevens te verzamelen. Dit lijkt misschien een extreem voorbeeld, maar serveruitvalpercentages behoren tot de meest gevraagde cijfers uit grootschalige studies, dus het voorbeeld is een belangrijke. We zouden misschien een paar honderd servers nodig hebben voor een zeer kleine studie, maar om statistisch significante gegevens te verkrijgen, zouden we waarschijnlijk duizenden servers nodig hebben. Als we ervan uitgaan dat een enkele server vijfduizend dollar kost, wat een relatief instapserver zou zijn, dan komen we al snel uit op vijfentwintig miljoen dollar aan apparatuur! En dat is nog maar net genoeg om een enigszins kleinschalige test (slechts vijfduizend servers) uit te voeren van een vrij goedkoop apparaat. Als we het zouden hebben over ondernemingsservers, zouden we al snel uitkomen op dertig- of zelfs vijftigduizend dollar per server, waardoor de kosten zelfs zouden oplopen tot een kwart miljard dollar.
Die kosten gelden natuurlijk voor het testen van één enkele configuratie van één enkel servermodel. Om een studie zinvol te laten zijn, zouden we vermoedelijk veel verschillende servermodellen nodig hebben. Misschien meerdere van elke leverancier om verschillende productlijnen en functies te vergelijken. Misschien veel verschillende leveranciers. Het is gemakkelijk in te zien hoe snel de kosten van een studie onmogelijk groot worden.
Dit is echter nog maar het begin van de kosten. Voor een goede studie zijn zorgvuldig gecontroleerde omgevingen nodig die vergelijkbaar zijn met de beste datacenters, om omgevingsproblemen zoveel mogelijk te isoleren. Dit betekent zeer betrouwbare elektriciteit, koeling, luchtstroom, vochtigheidsregeling, trillings- en stofbeheersing. Goede faciliteiten zoals deze zijn zeer kostbaar en daarom betalen veel bedrijven er niet voor, zelfs niet voor waardevolle productiewerklasten. In een grootschalige studie zouden deze kosten gemakkelijk de kosten van de apparatuur zelf kunnen overstijgen gedurende de looptijd van de studie.
Dan moeten we natuurlijk de behoefte aan speciale sensoren en tests aanpakken. Wat is precies een uitval? Zelfs in productiesystemen bestaat hierover vaak onenigheid. Is een uitvallende harde schijf in een array een uitval, zelfs als de array niet uitvalt? Is voorspelde uitval een uitval? Als we in een studie met schijfuitval te maken hebben, hoe verrekenen we dan menselijke componenten zoals schijfvervanging, die mogelijk niet op een uniforme manier wordt uitgevoerd? Er zijn manieren om hiermee om te gaan, maar ze voegen complicaties toe en zorgen ervoor dat de studies afwijken van praktijkgegevens naar kunstmatige gegevens voor een studie. Het opstellen van studierichtlijnen die toepasbaar en nuttig zijn voor eindgebruikers is veel moeilijker dan het lijkt.
En de grootste kostenpost: handmatige arbeid. Het onderhouden van een omgeving voor een grootschalige studie vergt menselijk kapitaal dat gelijk kan zijn aan de kosten van de studie zelf. Er is een groot aantal mensen nodig om een studieomgeving te onderhouden, de studie zelf uit te voeren, deze te monitoren en de gegevens te verzamelen. Al met al zijn de kosten over het algemeen simpelweg onmogelijk op te brengen.
Natuurlijk zouden we de test sterk kunnen terugschroeven, slechts een handvol servers en maar twee of drie modellen kunnen draaien, maar dan daalt de waarde van de test snel en bestaat het risico dat we eindigen met resultaten die niemand kan gebruiken, terwijl we toch een grote som geld hebben uitgegeven.
Het tweede onoverkomelijke probleem is tijd. De meeste zaken moeten over verloop van tijd op uitvalpercentages worden getest, en aangezien apparatuur in de IT over het algemeen is ontworpen om tientallen jaren betrouwbaar te werken, vergt het verzamelen van gegevens over uitvalpercentages vele jaren. Cijfers voor Mean Time to Failure zijn maar beperkt waardevol; Mean Time Between Failures en de uitvaltypes, -modi en statistieken over die uitval zijn zeer belangrijk om een studie nuttig te maken. Dit betekent dat een studie, om werkelijk nuttig te zijn, gedurende een zeer lange tijd moet lopen, wat steeds hogere kosten met zich meebrengt.
Maar dat is niet het grootste probleem. Het veel grotere probleem is dat tegen de tijd dat een studie genoeg tijd heeft gehad om nuttige uitvalcijfers te genereren, zelfs als die cijfers “live” zouden binnenkomen op het moment dat ze zich voordoen, het al te laat zou zijn. De betreffende apparatuur zou al verouderen en op de productiemarkt het einde van haar levensduur naderen tegen de tijd dat de studie werkelijk nuttige vroege resultaten zou opleveren. Vaak wordt productieapparatuur slechts gekocht voor een totale levensduur van drie tot vijf jaar. Het verkrijgen van resultaten zelfs maar één jaar na de start van deze periode zou weinig waarde hebben. En nieuwe producten kunnen die in de studie nog sneller vervangen dan de producten op natuurlijke wijze verouderen, waardoor de studie alleen waardevol is vanuit een historisch perspectief, zonder enig nut bij het bepalen van keuzes in een productiebesluitvormingsrol – de resultaten zouden te oud zijn om nuttig te zijn tegen de tijd dat ze beschikbaar kwamen.
De laatste belangrijke factor is een gebrek aan prikkel om bestaande gegevens te verstrekken aan degenen die ze nodig hebben. Hoewel er weinig gegevensbronnen bestaan, zijn er een paar, maar vrijwel allemaal zijn ze onvolledig en bestaan ze opdat grote leveranciers hun eigen apparatuurkwaliteit, uitvalpercentages en dergelijke kunnen meten. Deze worden zelden in gecontroleerde omgevingen uitgevoerd en omvatten vaak gegevens die in het veld zijn verzameld. In veel gevallen kunnen deze gegevens zelfs privé zijn van klanten en mogen ze sowieso wettelijk niet worden gedeeld.
Maar leveranciers die gegevens verzamelen, doen dit niet op een gelijkmatige, gemonitorde manier, dus het delen van die gegevens kan zeer nadelig voor hen zijn, omdat er geen zekerheid is dat er gelijkwaardige gegevens van hun concurrenten zouden bestaan. Zulke ongecontroleerde statistieken zouden geen werkelijk voordeel bieden aan de markt, en ook niet aan de leveranciers die ze bezitten, dus leveranciers hebben een sterke prikkel om dergelijke gegevens strikt geheim te houden.
De zeldzame uitzondering zijn enkele hardwarestudies van leveranciers zoals Google en BackBlaze, die grote aantallen harde schijven van consumentenklasse in relatief gecontroleerde omgevingen hebben en uitvalpercentages voor hun eigen doeleinden verzamelen, maar weinig tot geen risico lopen dat hun eigen concurrenten die gegevens benutten, terwijl het wel een pr-waarde heeft om dit te doen, en dus zullen ze af en toe een studie over hardwarebetrouwbaarheid op beperkte schaal publiceren. Deze studies worden door de branche gretig verslonden, ook al bevatten ze over het algemeen relatief weinig waarde, omdat hun gegevens oud zijn en onder onbekende omstandigheden en drempelwaarden zijn verzameld, en ze vaak geen statistisch betekenisvolle gegevens voor productvergelijking bevatten en op zijn best algemene, branchebrede statistische trends bevatten die hooguit enigszins nuttig zijn voor het voorspellen van toekomstige betrouwbaarheidstrajecten.
De meeste andere bedrijven die groot genoeg zijn om interne betrouwbaarheidsstatistieken te hebben, hebben deze over een beperkt scala aan apparatuur en beschouwen die informatie als bedrijfseigen, als een potentieel risico indien onthuld (het zou belangrijke details over architectuurimplementaties prijsgeven) en als een concurrentievoordeel. Om deze redenen worden ze dus niet gedeeld.
Ik heb daadwerkelijk het geluk gehad om betrokken te zijn geweest bij en een grootschalige test van opslagbetrouwbaarheid te hebben uitgevoerd, die enigszins informeel maar zeer waardevol werd uitgevoerd op meer dan tienduizend ondernemingsservers gedurende acht jaar, wat resulteerde in tachtigduizend serverjaren aan studie, een zeldzame kans. Maar wat in die studie werd geconcludeerd, was dat hoewel deze uiterst waardevol was, wat ze vooral aantoonde was dat we op een zo grote set nog steeds niet in staat waren om ook maar één enkele uitval waar te nemen! Het uitblijven van uitval was op zichzelf zeer waardevol. Maar we waren niet in staat om een standaardstatistiek zoals Mean Time to Failure te produceren. Om het soort gegevens te produceren dat mensen verwachten, weten we dat we honderdduizenden serverjaren nodig zouden hebben gehad, op zijn minst, om enige vorm van statistische significantie te verkrijgen, maar we kunnen niet met zekerheid stellen dat zelfs dat genoeg zou zijn geweest. Misschien zouden miljoenen serverjaren nodig zijn geweest. Er is geen manier om dit werkelijk te weten.
Waar dit ons brengt, is dat grootschalige studies in de IT simpelweg niet bestaan en waarschijnlijk ook nooit zullen bestaan. Wanneer ze er wel zijn, zullen ze geïsoleerd zijn en vrijwel zeker verlamd worden door de noodzaken van de realiteit. Er is geen manier om studies te gelde te maken op de schaal die nodig is om nuttig te zijn, vooral omdat de uitvalpercentages van ondernemingsapparatuur zo laag zijn terwijl de apparatuur zo duur is, waardoor externe bedrijven nooit de kosten van het leveren van dit onderzoek kunnen dekken. Als branche moeten we accepteren dat dit soort gegevens niet bestaat en actief alternatieven nastreven voor toegang tot dergelijke gegevens. Het is verbazingwekkend dat zoveel mensen in het veld verwachten dat dit soort gegevens beschikbaar is, terwijl dat historisch gezien nooit het geval is geweest.
Onze enige echte opties, gezien dit vacuüm, zijn het verzamelen van het anekdotische bewijs dat er bestaat (een zeer gevaarlijke aangelegenheid die zorgvuldige overweging van de context vereist) en het toepassen van logica om betrouwbaarheidsbenaderingen en -technieken te beoordelen. Dit is een breed terrein waar observatie ons noodzakelijkerwijs in de steek laat en alleen logica en intuïtie kunnen worden gebruikt om de resulterende kenniskloof op te vullen.
