Behöver du verkligen redundans: Den verkliga kostnaden för driftstopp

Driftstopp – det är ett ord som ingen vill höra. Det slår skräck i hjärtat på företag, chefer och i synnerhet IT-personal. Driftstopp kostar pengar och orsakar frustration.

Eftersom driftstopp utlöser en känslomässig reaktion hamnar företag ofta i läget att reagera på det annorlunda än på traditionella affärsfaktorer. Detta känslomässiga förhållningssätt får företag, i synnerhet mindre företag som ofta saknar rationella ekonomiska kontroller, att betrakta driftstopp som långt värre än det är. Det är inte ovanligt att finna att mindre företag faktiskt har åsamkat sig själva större ekonomisk skada genom att reagera på en rädsla för potentiellt driftstopp än det fruktade driftstoppet skulle ha vållat om det faktiskt hade inträffat. Detta är en farlig överreaktion.

Det första steget är att fastställa kostnaden för driftstopp. Inom IT har vi ofta att göra med tämligen komplexa system och driftstopp uppträder i en mängd olika varianter, såsom förlust av åtkomst, förlust av prestanda eller en fullständig förlust av ett system eller flera system. Att fastställa varje typ av driftstopp och dess tillhörande kostnader kan vara tämligen komplext, men en översiktlig bild är ofta tillräcklig för att ta fram rationella budgetar eller utgör åtminstone en god utgångspunkt på vägen mot att förstå de affärsrisker som är förknippade med driftstopp. Tänk på att liksom det är dåligt att lägga för mycket pengar på att undvika driftstopp, är det dåligt att lägga för mycket pengar på att beräkna kostnaderna för driftstopp. Lägg inte ned så mycket tid och resurser på att fastställa om du kommer att förlora pengar att du hade varit bättre betjänt av att helt enkelt förlora dem. Akta dig för den höga kostnaden för beslutsfattande.

Vi kan börja med att betrakta enbart fullständig systemförlust. Vad är kostnaden för organisatoriskt driftstopp för dig – det vill säga, om du var tvungen att upphöra med all verksamhet under en timme eller en dag, hur mycket pengar går då förlorade? I vissa fall kan förlusterna bli dramatiska, som i fallet med ett sjukhus där en dags driftstopp skulle resultera i förlorat förtroende och framtida kundunderlag och potentiellt resultera i rättstvister. Men i många fall kan en dags driftstopp ha en obetydlig ekonomisk inverkan – många företag skulle helt enkelt kunna kalla dagen för en helgdag, låta sin personal vila för dagen och låta folk arbeta lite hårdare under de följande dagarna för att ta igen eftersläpningen från den förlorade dagen. Allt handlar om hur ditt företag bedriver och kan bedriva sin verksamhet och hur väl rustat du är för att lindra förlorad tid. Många företag kommer endast att titta på dagliga intäktssiffror för att fastställa förlorade intäkter, men detta kan vara fruktansvärt vilseledande.

När vi väl har en grov siffra för kostnaden för driftstopp kan vi sedan beakta risken för driftstopp. Detta är mycket svårt att bedöma eftersom tillförlitliga siffror om driftsäkerheten hos IT-system så gott som inte existerar och varje organisations system är så unika att branschdata är så gott som värdelösa. Här är vi tvungna att förlita oss på IT-personal för att tillhandahålla en överblick av riskerna och, förhoppningsvis, en tillförlitlig bedömning av sannolikheterna för enskilda risker. Om vi till exempel, i stora avrundade tal, hade ett verksamhetskritiskt program som kördes på en server med endast en hårddisk, då skulle vi förvänta oss att det någon gång under de kommande fem till tio åren kommer att uppstå driftstopp i samband med förlusten av den disken. Om vi har samma server med diskar för hot swap i en speglad array, då är sannolikheten för driftstopp i samband med det lagringssystemet, även över tio år, tämligen liten. Detta innebär inte att en disk inte sannolikt kommer att haverera, det kommer den, utan att systemet sannolikt förblir opåverkat tills redundansen är återställd, utan att slutanvändarna märker att något har hänt.

Vårt sista verktyg för grov uppskattning är att tillämpa relevant arbetstid. Många företag har inte verksamhet dygnet runt alla dagar, vissa har det förstås, men de flesta har det inte. Är förlusten av ett verksamhetskritiskt program klockan sex på kvällen likvärdig med förlusten av det programmet klockan tio på förmiddagen? Och på helgen? Använder folk det produktivt klockan tre en fredagseftermiddag, eller skulle en förlust av det knappt kosta något alls och göra de anställda glada över att få en timme eller två extra på sina helger? Kan scheman flyttas om i händelse av en förlust kring lunchtid? Dessa faktorer, hur triviala de än kan tyckas, kan vara betydande. Om driftstoppet är begränsat till endast två till fyra timmar kan många företag lindra så gott som hela den ekonomiska inverkan helt enkelt genom att be de anställda att vara lite flexibla i sina scheman för att rätta sig efter avbrottet genom att ta lunch tidigt eller gå hem tidigt en dag och arbeta en timme extra nästa.

Nu när vi har dessa faktorer – kostnaden för driftstopp, förmågan att lindra inverkan av driftstopp baserat på varaktighet och riskerna för avbrottshändelser – kan vi börja teckna en bild av hur en driftstoppshändelse sannolikt kommer att se ut. Utifrån detta kan vi börja härleda hur mycket pengar det skulle vara värt att lägga på att minska risken för en sådan händelse. För vissa företag kommer denna siffra att vara ytterst hög och för andra kommer den att vara förvånansvärt låg. Denna övning kan blottlägga en hel del om hur ett företag fungerar som normalt kanske inte alls är så synligt.

Det är viktigt att i detta läge påpeka att det vi tittar på här är en förlust av systemtillgänglighet, inte en förlust av data. Vi förutsätter att goda säkerhetskopior tas och att dessa säkerhetskopior inte är komprometterade. Redundans och driftstopp är inte ämnen som rör dataförlust, utan endast förlust av tillgänglighet. Scenarier med dataförlust bör behandlas med lika stor eller större omsorg men utgör ett separat ämne. Det är ett sällsynt företag som kan överleva katastrofal dataförlust, men det är vanligt att uppleva och med lätthet överleva till och med betydande driftstopp.

Det finns flera sätt att avvärja driftstopp; redundans är mycket synligt och behandlas nästan som ett modeord och får därför mycket fokus, men det finns även andra medel. God systemdesign är viktigt; att undvika systemkomplexitet kan kraftigt minska driftstopp helt enkelt genom att avlägsna punkter med onödig risk och bräcklighet. Att använda kvalitetshårdvara och kvalitetsprogramvara är också viktigt – eftersom billig hårdvara som är redundant ofta havererar lika ofta som icke-redundant hårdvara av företagsklass. Att ha en snabb leveranskedja av reservdelar kan vara en betydande faktor, ofta i form av avtal med hårdvaruleverantörer om svarstider på fyra timmar för reservdelar. Listan kan göras lång. Det vi kommer att fokusera på är redundans, vilket är där vi är mest benägna att spendera för mycket när vi ställs inför rädslan för driftstopp.

Nu när vi känner till kostnaderna för att misslyckas med att ha adekvat redundans kan vi jämföra denna potentiella kostnad mot den högst verkliga, omedelbara kostnaden för att tillhandahålla denna redundans. Vissa saker, såsom hårddiskar, är mycket benägna att haverera och relativt enkla och kostnadseffektiva att göra redundanta – vilket tar en betydande risk och förminskar den till en bagatell. Dessa tenderar att vara en första fokuspunkt. Men det finns många områden av redundans att beakta, såsom nätaggregat, nätverkshårdvara, internetanslutningar och hela system – ofta gjorda redundanta genom moderna virtualiseringstekniker som tillhandahåller nya vägar till redundans som tidigare inte var tillgängliga för många mindre företag.

Nya typer av redundans, i synnerhet de som görs tillgängliga genom virtualisering, är ofta en punkt där företag kommer att frestas att spendera för mycket, kanske dramatiskt, i förhållande till riskerna för driftstopp. Än värre är att i strävan att skaffa de senaste modeflugorna inom redundans kommer företag ofta att implementera dessa tekniker felaktigt och faktiskt införa större risk och en högre sannolikhet för driftstopp jämfört med att inte ha gjort någonting alls. Det blir allt vanligare att höra om företag som spenderar tiotusentals eller till och med hundratusentals dollar i ett försök att lindra en ekonomisk förlust från driftstopp på endast några tusen dollar – och som sedan misslyckas i det försöket och i slutänden ändå ökar sin risk.

När man bedömer kostnaden för riskbegränsning är det avgörande att komma ihåg att riskbegränsning är en garanterad utgift medan en risk endast är en risk. Ungefär som en bilförsäkring där du betalar en garanterad liten månadsavgift för att avvärja en enorm, oplanerad utgift. Teorin bakom riskbegränsning är att spendera en jämförelsevis liten summa pengar nu för att minska risken för en stor utgift senare, men om kostnaden för riskbegränsning blir för hög blir det bättre att helt enkelt acceptera riskerna.

System kan givetvis bedömas var för sig. Att hålla en webbnärvaro och ett telefonsystem i gång och funktionsdugligt vid alla tidpunkter är långt viktigare än ett e-postsystem där till och med timmar av driftstopp sannolikt inte kan upptäckas av externa kunder. Att betala endast för att skydda de system där kostnaden för driftstopp är betydande är en viktig strategi.

Bli inte förvånad om det du upptäcker är att utöver någon mycket grundläggande redundans (såsom speglade hårddiskar) så är en enkel nätverksdesign med goda säkerhetskopior och återställningsplaner samt ett bra hårdvarusupportavtal allt som behövs för merparten, om inte alla, av dina system. Genom att sänka komplexiteten i dina system gör du dem naturligt mer stabila och enklare att hantera – vilket ytterligare sänker kostnaden för din IT-infrastruktur.

Taggatcost analysis downtime redundancy reliability risk uptime

Mer att läsa.

Försäljningens sociala kontrakt

När bör man överväga hög tillgänglighet?

Att ompröva utgåvor med långtidsstöd