Fondato nel 2008 · Edizione digitale · 15 Giugno 2026

SMB IT Journal

La risorsa di Information Technology per le piccole imprese

Italiano
Archiviazione

La Temuta Confusione degli Array

La Temuta Confusione degli Array, o DAC, è un termine attribuito a un gruppo di tipologie di guasto degli array RAID che sono di fatto impossibili da diagnosticare ma che sono accomunate dal fatto di non presentare alcun guasto dei dischi in concomitanza con il guasto completo dell'array, con conseguente perdita totale dei dati. Si ipotizza che tre cause principali siano all'origine della maggior parte dei casi di DAC:

Bug del Software o del Firmware: Sebbene i bug eclatanti nel comportamento del RAID siano oggi rari, sono sempre possibili, specialmente con tipologie di array più complesse come il RAID a parità, dove devono essere eseguiti calcoli ricostruttivi sull'array. Un bug nel software o nel firmware del RAID (a seconda che si parli di RAID software o hardware) potrebbe manifestarsi in svariati modi, inclusa la distruzione accidentale dell'array. Problemi di firmware potrebbero verificarsi anche nei dischi stessi.

Guasto Hardware: Un guasto nell'hardware come processori, memoria o controller può avere effetti drammatici su un array RAID. Gli errori di memoria in particolare potrebbero facilmente comportare la perdita totale dell'array. Si ritiene che questa sia la causa meno comune di DAC.

Vibrazione dei Dischi: In questo scenario i singoli dischi si allentano per via delle vibrazioni e si disconnettono dal backplane, per poi rimettersi in posizione vibrando, innescando un evento di resilvering. Se ciò dovesse accadere con più dischi durante un ciclo di resilvering, oppure se si verificasse un URE durante un resilvering, assisteremmo alla perdita totale dell'array negli array a parità, potenzialmente anche senza che si verifichi alcun guasto hardware.

A causa della natura della DAC e poiché non si tratta di un problema del RAID in sé bensì dei componenti di supporto a esso, ci troviamo in una posizione molto difficile nel tentare di identificare o quantificare il rischio. Nessuno sa quanto sia probabile che si verifichi la DAC e, sebbene sappiamo che la DAC rappresenta una minaccia più significativa sui sistemi RAID a parità, non sappiamo di quanto. L'evidenza aneddotica suggerisce che il rischio sul RAID con mirroring sia incommensurabilmente basso e che sul RAID a parità possa emergere al di sopra del rumore di fondo nell'analisi del rischio. Tra le modalità di guasto, i bug del software e la vibrazione dei dischi presentano entrambi un rischio molto più elevato per i sistemi che funzionano su RAID a parità, poiché il rischio di URE riguarda solo gli array a parità e il software necessario per la parità è di gran lunga più complesso del software necessario per il mirroring. Il RAID a parità è semplicemente più fragile e comporta più tipi di rischi, esponendolo alla DAC in più modi rispetto al RAID con mirroring.

Poiché la DAC è un insieme di possibilità e poiché è di fatto impossibile da identificare dopo che si è verificata, vi sono scarsi mezzi possibili per raccogliere dati al riguardo. Da quando la DAC è stata identificata come un rischio, molte persone si sono fatte avanti, prevalentemente nella comunità di Spiceworks, per fornire testimonianze oculari aneddotiche di guasti di array dovuti alla DAC. La natura dell'IT degli utenti finali è tale per cui le statistiche, specialmente su concetti nebulosi come la DAC che non sono ampiamente noti, non vengono raccolte e non possono esserlo. La DAC si presenta in strutture di tutto il mondo, dove un amministratore di sistema torna in ufficio e trova un server con tutti i dati spariti e nessun guasto hardware. I dati sono già perduti. È improbabile che vengano eseguite diagnostiche, i log non esisteranno e, anche se il problema potesse essere identificato, a chi verrebbe segnalato e, anche se segnalato, come quantifichiamo quanto spesso accade rispetto a quanto spesso non accade, o quanto spesso potrebbe accadere ma non essere segnalato? Purtroppo tutto ciò che so è che, avendo identificato e in qualche misura reso pubblico il rischio e i suoi sintomi, improvvisamente molte persone si sono fatte avanti riconoscendo di aver visto la DAC anch'esse in prima persona e di non avere idea di cosa fosse accaduto.

Se i miei studi aneddotici sono in qualche modo indicativi, sembrerebbe che la DAC ponga in realtà un rischio considerevole per gli array a parità, con guasti presenti in una percentuale apprezzabile di array, ma l'accuratezza e l'ampiezza del campione di quella raccolta dati erano minuscole. Tuttavia, originariamente si pensava che la DAC fosse così rara che, in teoria, non si sarebbe riusciti a trovare nessuno che l'avesse mai osservata, ma non sembra essere questo il caso. Sono già a conoscenza di molte persone che l'hanno sperimentata.

Siamo costretti, per la natura del settore, ad accettare la DAC come un rischio potenziale e a elencarla come un rischio “minore” sconosciuto nelle valutazioni del rischio, oltre a essere preparati a essa, ma non possiamo fare calcoli a suo riguardo. Tuttavia, sapere che può essere un rischio e comprendere il perché possa verificarsi sono elementi importanti nella valutazione del rischio e nella sua mitigazione.

[L'evidenza aneddotica suggerisce che la DAC sia quasi sempre esclusiva delle implementazioni RAID hardware di array RAID a parità singola su controller SCSI.]

Etichettatoarray raid

Pubblicità

SMB IT Journal — the IT resource for small business