Avez-vous vraiment besoin de redondance : le coût réel des interruptions de service

Les interruptions de service – voilà un mot que personne n'a envie d'entendre. Il sème la peur au cœur des entreprises, des dirigeants et tout particulièrement des équipes informatiques. Les interruptions de service coûtent de l'argent et génèrent de la frustration.

Parce qu'une interruption de service déclenche une réaction émotionnelle, les entreprises finissent souvent par y réagir différemment des autres facteurs commerciaux traditionnels. Cette approche émotionnelle conduit les entreprises, en particulier les plus petites qui manquent souvent de contrôles financiers rationnels, à traiter les interruptions de service comme bien pires qu'elles ne le sont. Il n'est pas rare de constater que les petites entreprises se sont en réalité infligé plus de dommages financiers en réagissant à la peur d'une interruption potentielle que l'interruption redoutée n'en aurait causé si elle s'était effectivement produite. Il s'agit là d'une surréaction dangereuse.

La première étape consiste à déterminer le coût d'une interruption de service. En informatique, nous avons souvent affaire à des systèmes plutôt complexes, et les interruptions se déclinent sous diverses formes telles que la perte d'accès, la perte de performance ou la perte complète d'un ou plusieurs systèmes. Déterminer chaque type d'interruption et les coûts qui lui sont associés peut s'avérer assez complexe, mais une vue d'ensemble suffit souvent à élaborer des budgets rationnels, ou constitue à tout le moins un bon point de départ sur la voie de la compréhension des risques commerciaux liés aux interruptions de service. Gardez à l'esprit que, tout comme il est néfaste de dépenser trop pour éviter une interruption, il est néfaste de dépenser trop pour en calculer les coûts. Ne consacrez pas tant de temps et de ressources à déterminer si vous allez perdre de l'argent que vous auriez eu intérêt à simplement le perdre. Méfiez-vous du coût élevé de la prise de décision.

Nous pouvons commencer en ne considérant que la perte complète d'un système. Quel est le coût d'une interruption à l'échelle de votre organisation – c'est-à-dire, si vous deviez cesser toute activité pendant une heure ou une journée, combien d'argent perdriez-vous ? Dans certains cas, les pertes pourraient être dramatiques, comme dans le cas d'un hôpital où une journée d'interruption entraînerait une perte de confiance et de clientèle future, et pourrait donner lieu à des poursuites judiciaires. Mais dans bien des cas, une journée d'interruption n'aurait qu'un impact financier minime – de nombreuses entreprises pourraient simplement décréter la journée fériée, laisser leur personnel se reposer pour la journée et demander à chacun de travailler un peu plus dur les jours suivants pour rattraper le retard accumulé pendant la journée perdue. Tout dépend de la manière dont votre entreprise fonctionne et peut fonctionner, ainsi que de votre capacité à compenser le temps perdu. Beaucoup d'entreprises se contenteront d'examiner les chiffres de revenus quotidiens pour déterminer le manque à gagner, mais cela peut être terriblement trompeur.

Une fois que nous disposons d'une estimation approximative du coût d'une interruption, nous pouvons alors considérer le risque d'interruption. Cela est très difficile à évaluer, car les bonnes données sur la fiabilité des systèmes informatiques sont quasi inexistantes, et les systèmes de chaque organisation sont si singuliers que les données sectorielles sont pratiquement inutiles. Ici, nous sommes contraints de nous en remettre aux équipes informatiques pour fournir un aperçu des risques et, idéalement, une évaluation fiable de la probabilité de chaque risque individuel. Par exemple, en chiffres ronds, si nous avions une application métier fonctionnant sur un serveur doté d'un seul disque dur, alors nous nous attendrions à ce que, dans les cinq à dix prochaines années, survienne une interruption liée à la défaillance de ce disque. Si nous disposons de ce même serveur avec des disques échangeables à chaud dans une grappe en miroir, alors la probabilité d'une interruption liée à ce système de stockage, même sur dix ans, est plutôt faible. Cela ne signifie pas qu'un disque ne risque pas de tomber en panne – il le risque – mais que le système a toutes les chances de ne pas être affecté jusqu'à ce que la redondance soit rétablie, sans que les utilisateurs finaux remarquent que quoi que ce soit s'est produit.

Notre dernier outil d'estimation approximative consiste à appliquer les heures d'activité pertinentes. Beaucoup d'entreprises ne fonctionnent pas 24h/24 et 7j/7 ; certaines le font, bien sûr, mais la plupart ne le font pas. La perte d'une application métier à dix-huit heures équivaut-elle à la perte de cette application à dix heures du matin ? Et le week-end ? Les gens l'utilisent-ils de manière productive à quinze heures un vendredi après-midi, ou bien sa perte ne coûterait-elle presque rien tout en faisant le bonheur d'employés gagnant une heure ou deux supplémentaires sur leur week-end ? Les horaires peuvent-ils être décalés en cas de perte aux alentours de l'heure du déjeuner ? Ces facteurs, bien qu'apparemment anodins, peuvent être significatifs. Si l'interruption se limite à seulement deux à quatre heures, alors de nombreuses entreprises peuvent atténuer la quasi-totalité de l'impact financier simplement en demandant aux employés de faire preuve d'un peu de souplesse dans leurs horaires pour s'adapter à la panne, en déjeunant plus tôt ou en quittant le travail plus tôt un jour et en travaillant une heure de plus le lendemain.

Maintenant que nous disposons de ces facteurs – le coût d'une interruption, la capacité à atténuer l'impact d'une interruption en fonction de sa durée, et les risques d'événements de panne – nous pouvons commencer à dresser un tableau de ce à quoi un événement d'interruption est susceptible de ressembler. À partir de là, nous pouvons commencer à déterminer combien d'argent il vaudrait la peine d'investir pour réduire le risque d'un tel événement. Pour certaines entreprises, ce chiffre sera extrêmement élevé, et pour d'autres, il sera étonnamment bas. Cet exercice peut révéler une foule d'informations sur le fonctionnement d'une entreprise qui ne sont normalement pas très visibles.

Il est important de noter à ce stade que ce que nous examinons ici est une perte de disponibilité des systèmes, et non une perte de données. Nous partons du principe que de bonnes sauvegardes sont effectuées et que celles-ci ne sont pas compromises. La redondance et les interruptions de service ne sont pas des sujets liés à la perte de données, mais uniquement à la perte de disponibilité. Les scénarios de perte de données doivent être traités avec une diligence égale ou supérieure, mais constituent un sujet distinct. Rare est l'entreprise capable de survivre à une perte de données catastrophique, mais il est courant de subir – et de surmonter aisément – même une interruption de service substantielle.

Il existe de multiples façons de prévenir les interruptions de service ; la redondance est très visible et traitée presque comme un mot à la mode, et reçoit donc une grande attention, mais il existe également d'autres moyens. Une bonne conception des systèmes est importante : éviter la complexité des systèmes peut fortement réduire les interruptions, simplement en supprimant des points de risque et de fragilité inutiles. Utiliser du matériel et des logiciels de qualité est tout aussi important – car du matériel d'entrée de gamme redondant tombera souvent en panne aussi fréquemment que du matériel de classe entreprise non redondant. Disposer d'une chaîne d'approvisionnement rapide en pièces de rechange peut constituer un facteur significatif, souvent matérialisé par des contrats de remplacement de pièces matérielles auprès de fournisseurs avec un délai de réponse de quatre heures. Cette liste est longue. Ce sur quoi nous allons nous concentrer est la redondance, qui est le domaine où nous sommes le plus susceptibles de trop dépenser lorsque nous sommes confrontés à la peur d'une interruption de service.

Maintenant que nous connaissons les coûts d'une absence de redondance adéquate, nous pouvons comparer ce coût potentiel au coût bien réel et immédiat de la mise en place de cette redondance. Certains éléments, tels que les disques durs, sont hautement susceptibles de tomber en panne et relativement faciles et économiques à rendre redondants – ce qui permet de prendre un risque significatif et de le rendre négligeable. Ils tendent à constituer un premier point d'attention. Mais il existe de nombreux domaines de redondance à considérer, tels que les alimentations électriques, le matériel réseau, les connexions Internet et des systèmes entiers – souvent rendus redondants grâce aux techniques modernes de virtualisation, qui offrent de nouvelles avenues de redondance auparavant inaccessibles à de nombreuses petites entreprises.

Les nouveaux types de redondance, en particulier ceux rendus possibles par la virtualisation, sont souvent un point où les entreprises seront tentées de trop dépenser, peut-être de façon spectaculaire, au regard des risques d'interruption de service. Pire encore, dans leur empressement à acquérir les dernières modes en matière de redondance, les entreprises mettront souvent en œuvre ces techniques de manière incorrecte et introduiront en réalité un risque accru et une probabilité d'interruption plus élevée que si elles n'avaient rien fait du tout. Il devient de plus en plus courant d'entendre parler d'entreprises dépensant des dizaines, voire des centaines de milliers de dollars pour tenter d'atténuer une perte monétaire liée à une interruption de quelques milliers de dollars seulement – et échouant ensuite dans cette tentative, finissant par accroître leur risque malgré tout.

Lorsqu'on évalue le coût de l'atténuation, il est essentiel de se rappeler que l'atténuation est une dépense garantie, là où le risque n'est qu'un risque. Un peu comme l'assurance automobile, où vous payez une petite cotisation mensuelle garantie afin de vous prémunir contre une dépense massive et imprévue. La théorie de l'atténuation des risques consiste à dépenser dès maintenant une somme d'argent comparativement faible afin de réduire le risque d'une dépense importante ultérieure, mais si le coût de l'atténuation devient trop élevé, alors il devient préférable d'accepter simplement les risques.

Les systèmes peuvent bien sûr être évalués individuellement. Maintenir une présence web et un système téléphonique opérationnels en permanence est bien plus important qu'un système de messagerie où même plusieurs heures d'interruption ont peu de chances d'être détectables par les clients externes. Ne payer que pour protéger les systèmes dont le coût d'interruption est significatif constitue une stratégie importante.

Ne soyez pas surpris si ce que vous découvrez est qu'au-delà d'une redondance très élémentaire (comme des disques durs en miroir), une conception réseau simple assortie de bonnes sauvegardes, de plans de restauration et d'un bon contrat de support matériel suffit pour la majorité, voire la totalité, de vos systèmes. En réduisant la complexité de vos systèmes, vous les rendez naturellement plus stables et plus faciles à gérer – réduisant d'autant le coût de votre infrastructure informatique.

Mots-cléscost analysis downtime redundancy reliability risk uptime

À lire également.

Le contrat social de la vente

Quand envisager la haute disponibilité ?

Repenser les versions à support à long terme