Spiegare la Mancanza di Studi su Larga Scala nell'IT

I professionisti IT li richiedono ogni giorno e tuttavia non ne esiste nessuno – studi su larga scala su rischio e prestazioni per hardware e software IT. Questo copre un'ampia gamma di possibilità, ma esempi comuni sono i tassi di guasto tra diversi modelli di server, dischi rigidi, sistemi operativi, tipi di array RAID, desktop, laptop, qualunque cosa. E tuttavia, indipendentemente dall'elevata domanda di tali dati, non ne è disponibile alcuno. Come può essere.
Non tutti i casi sono uguali, naturalmente, ma in linea di massima ci sono tre fattori davvero significativi che entrano in gioco impedendo a questo tipo di dati di entrare nel campo. Si tratta dell'alto costo di condurre uno studio, della lunga scala temporale necessaria per uno studio e della mancanza di incentivi a produrre e/o condividere questi dati con altre aziende.
Il costo è di gran lunga il fattore più rilevante. Se si potesse superare il costo degli studi su larga scala, per tutti gli altri fattori si potrebbero trovare soluzioni. Ma purtroppo la natura di uno studio su larga scala è che esso sarà costoso. Come esempio possiamo considerare i tassi di affidabilità dei server.
Per determinare i tassi di guasto di un server abbiamo bisogno di un gran numero di server al fine di raccogliere questi dati. Questo può sembrare un esempio estremo, ma il tasso di guasto dei server è una delle cifre da studio su larga scala più comunemente richieste, e quindi l'esempio è importante. Avremmo bisogno forse di qualche centinaio di server per uno studio molto piccolo, ma per ottenere dati statisticamente significativi avremmo probabilmente bisogno di migliaia di server. Se supponiamo che un singolo server costi cinquemila dollari, il che sarebbe un server di livello relativamente entry level, parliamo facilmente di venticinque milioni di dollari di apparecchiature! E questo è appena sufficiente per fare un test su scala piuttosto ridotta (solo cinquemila server) di un dispositivo dal costo piuttosto basso. Se parlassimo di server enterprise arriveremmo facilmente a trenta o persino cinquantamila dollari per server, portando il costo addirittura a un quarto di miliardo di dollari.
Ora quel costo, naturalmente, è per testare una singola configurazione di un singolo modello di server. Presumibilmente, perché uno studio sia significativo, avremmo bisogno di molti modelli diversi di server. Forse diversi modelli di ciascun fornitore per confrontare linee e funzionalità differenti. Forse molti fornitori diversi. È facile vedere quanto rapidamente il costo di uno studio diventi impossibilmente elevato.
Questo, tuttavia, è solo l'inizio del costo. Fare un buono studio richiederà ambienti accuratamente controllati, alla pari dei migliori datacenter, per isolare il più possibile le problematiche ambientali. Ciò significa alimentazione elettrica, raffreddamento, flusso d'aria, controllo dell'umidità, delle vibrazioni e della polvere altamente affidabili. Buone strutture come queste sono molto costose ed è il motivo per cui molte aziende non le pagano, nemmeno per preziosi carichi di lavoro di produzione. In uno studio su larga scala questo costo potrebbe facilmente superare il costo delle apparecchiature stesse nel corso dello studio.
Poi, naturalmente, dobbiamo affrontare la necessità di sensori e test speciali. Cosa costituisce esattamente un guasto? Persino nei sistemi di produzione c'è spesso disaccordo su questo. Un disco rigido che si guasta in un array è un guasto, anche se l'array non si guasta? Un guasto predittivo è un guasto? Se si tratta il guasto dei dischi in uno studio, come si tiene conto delle componenti umane come la sostituzione dei dischi, che potrebbe non essere eseguita in modo uniforme? Ci sono modi per gestire questo, ma aggiungono complicazione e fanno deviare gli studi dai dati del mondo reale verso dati artificiosi creati per uno studio. Stabilire linee guida di studio che siano applicabili e utili agli utenti finali è molto più difficile di quanto sembri.
E il costo maggiore: il lavoro manuale. Mantenere un ambiente per uno studio su larga scala richiederà capitale umano che potrebbe eguagliare il costo dello studio stesso. Occorre un gran numero di persone per mantenere un ambiente di studio, condurre lo studio stesso, monitorarlo e raccogliere i dati. Tutto sommato, i costi sono generalmente, semplicemente, impossibili da sostenere.
Naturalmente potremmo ridurre drasticamente il test, far funzionare solo una manciata di server e soltanto due o tre modelli, ma il valore del test crolla rapidamente e si rischia di finire con risultati che nessuno può utilizzare pur avendo speso una grossa somma di denaro.
Il secondo problema insormontabile è il tempo. La maggior parte delle cose deve essere testata per i tassi di guasto nel corso del tempo e, poiché le apparecchiature in ambito IT sono generalmente progettate per funzionare in modo affidabile per decenni, raccogliere dati sui tassi di guasto richiede molti anni. I valori di Mean Time to Failure hanno un valore limitato; il Mean Time Between Failures e i tipi di guasto, le modalità e le statistiche su tale guasto sono molto importanti affinché uno studio sia utile. Ciò significa che, perché uno studio sia davvero utile, deve durare per un tempo molto lungo, generando un costo sempre maggiore.
Ma non è questo il problema più grande. Il problema di gran lunga maggiore è che, perché uno studio abbia abbastanza tempo per generare cifre utili sui guasti, anche se quelle cifre uscissero “in tempo reale” mano a mano che si verificano, sarebbe già troppo tardi. Le apparecchiature in questione starebbero già invecchiando e si avvicinerebbero al momento della sostituzione nel mercato di produzione nel momento in cui lo studio produce risultati iniziali davvero utili. Spesso le apparecchiature di produzione vengono acquistate solo per un ciclo di vita totale di tre-cinque anni. Ottenere risultati anche solo a un anno dall'inizio di questo arco avrebbe scarso valore. E nuovi prodotti potrebbero sostituire quelli dello studio ancora più rapidamente di quanto i prodotti invecchino naturalmente, rendendo lo studio prezioso solo da un punto di vista storico, senza alcuna utilità nel determinare le scelte in un ruolo decisionale di produzione – i risultati sarebbero troppo datati per essere utili nel momento in cui sono disponibili.
L'ultimo fattore rilevante è la mancanza di incentivi a fornire i dati esistenti a coloro che ne hanno bisogno. Sebbene esistano poche fonti di dati, alcune esistono, ma quasi tutte sono incomplete ed esistono perché i grandi fornitori misurino la qualità delle proprie apparecchiature, i tassi di guasto e simili. Questi raramente vengono prodotti in ambienti controllati e spesso coinvolgono dati raccolti sul campo. In molti casi questi dati potrebbero persino essere riservati ai clienti e comunque non condivisibili legalmente.
Ma i fornitori che raccolgono dati non li raccolgono in modo uniforme e monitorato, quindi condividere quei dati potrebbe essere molto dannoso per loro, perché non c'è alcuna garanzia che esistano dati equivalenti provenienti dai loro concorrenti. Statistiche non controllate di quel tipo non offrirebbero alcun reale beneficio al mercato, né lo fanno i fornitori che le possiedono, quindi i fornitori sono fortemente incentivati a mantenere tali dati strettamente riservati.
La rara eccezione sono alcuni studi sull'hardware da parte di fornitori come Google e BackBlaze, che possiedono grandi quantità di dischi rigidi di classe consumer in ambienti relativamente controllati e raccolgono i tassi di guasto per i propri scopi, ma corrono poco o nessun rischio che i propri concorrenti sfruttino quei dati, mentre traggono valore in termini di pubbliche relazioni nel farlo e quindi, occasionalmente, rilasceranno uno studio sull'affidabilità dell'hardware su scala limitata. Questi studi vengono divorati avidamente dal settore anche se generalmente contengono un valore relativamente scarso, dato che i loro dati sono datati e raccolti in condizioni e soglie sconosciute, e spesso non contengono dati statisticamente significativi per il confronto tra prodotti e, nella migliore delle ipotesi, contengono tendenze statistiche generali a livello di settore che, al meglio, sono in qualche misura utili per prevedere i futuri andamenti dell'affidabilità.
La maggior parte delle altre aziende abbastanza grandi da disporre di statistiche interne sull'affidabilità le possiede su una gamma ristretta di apparecchiature e considera tali informazioni proprietarie, un potenziale rischio se divulgate (rivelerebbero dettagli importanti delle implementazioni architetturali) e un vantaggio competitivo. Per queste ragioni, dunque, non vengono condivise.
Ho effettivamente avuto la fortuna di essere coinvolto e di condurre un test di affidabilità dello storage su larga scala che è stato realizzato in modo piuttosto informale, ma molto utilmente, su oltre diecimila server enterprise nell'arco di otto anni, per un totale di ottantamila anni-server di studio, un'opportunità rara. Ma ciò che è stato concluso in quello studio è che, sebbene fosse estremamente prezioso, ciò che ha mostrato principalmente è che su un insieme così grande non siamo stati comunque in grado di osservare un singolo guasto! L'assenza di guasti era, di per sé, molto significativa. Ma non siamo stati in grado di produrre alcuna statistica standard come il Mean Time to Failure. Per produrre il tipo di dati che le persone si aspettano sappiamo che avremmo avuto bisogno di centinaia di migliaia di anni-server, come minimo, per ottenere un qualunque tipo di significatività statistica, ma non possiamo affermare con certezza che persino ciò sarebbe stato sufficiente. Forse sarebbero stati necessari milioni di anni-server. Non c'è modo di saperlo davvero.
Ciò a cui tutto questo ci lascia è che gli studi su larga scala nell'IT semplicemente non esistono e, con ogni probabilità, non esisteranno mai. Quando esisteranno saranno isolati e quasi certamente menomati dalle necessità della realtà. Non c'è modo di monetizzare studi sulla scala necessaria per essere utili, principalmente perché i tassi di guasto delle apparecchiature enterprise sono così bassi mentre le apparecchiature sono così costose, quindi le aziende terze non possono mai coprire il costo di fornire questa ricerca. Come settore dobbiamo accettare che questo tipo di dati non esiste e perseguire attivamente alternative all'avere accesso a tali dati. È sorprendente che così tante persone nel campo si aspettino che questo tipo di dati sia disponibile, quando storicamente non lo è mai stato.
Le nostre uniche reali opzioni, considerato questo vuoto, sono raccogliere le prove aneddotiche esistenti (una cosa molto pericolosa da fare, che richiede un'attenta considerazione del contesto) e l'applicazione della logica per valutare gli approcci e le tecniche di affidabilità. Questa è una situazione generale in cui l'osservazione necessariamente ci viene meno e solo la logica e l'intuizione possono essere utilizzate per colmare il conseguente vuoto di conoscenza.
