Tirer le meilleur parti de votre Pyramide Inversée de la Catastrophe

L'architecture 3-2-1, ou Pyramide Inversée de la Catastrophe, est devenue un paria de l'industrie informatique pour de nombreuses raisons. Malheureusement, beaucoup d'entreprises ne découvrent les dangers associés à cette conception qu'après l'arrivée des composants et le départ de l'argent de leurs comptes.

Certaines entreprises ont la chance de repérer cette erreur suffisamment tôt pour pouvoir retourner leurs achats et recommencer avec une phase de conception et de décision appropriée avant l'acquisition de nouveau matériel et de nouveaux logiciels. Il s'agit toutefois d'une situation idéale et très rare. Au mieux, nous pouvons généralement nous attendre à des frais de réapprovisionnement et, bien plus fréquemment, l'équipement ne peut pas être retourné du tout, ou les frais sont si élevés qu'ils rendent l'opération inutile.

Ce à quoi la plupart des entreprises sont confrontées, c'est à la nécessité de « tirer le meilleur parti » de la situation pour aller de l'avant. L'une des plus grandes préoccupations est que les parties concernées, qu'il s'agisse des parties prenantes financières qui viennent de dépenser beaucoup d'argent pour le nouveau matériel ou des parties prenantes techniques qui se trouvent désormais en mauvaise posture pour avoir autorisé l'achat de cet équipement, cèdent à une réaction émotionnelle aboutissant à succomber au sophisme des coûts irrécupérables. Il est vital de ne pas laisser cette réaction émotionnelle et illogique s'installer, car elle compromettrait la prise de décision critique.

Il faut bien comprendre que l'argent dépensé pour la pyramide inversée de la catastrophe a déjà été dépensé et qu'il est perdu. Que cet argent ait été gaspillé, ou combien a été gaspillé, est sans importance pour la prise de décision à ce stade. Que le système ait été un cadeau ou qu'il ait coûté un milliard de dollars n'a aucune importance : cet argent est parti et nous devons désormais faire avec ce que nous avons. Une « astuce » potentielle ici consisterait à faire intervenir un décideur financier comme un directeur financier, à expliquer qu'une réaction émotionnelle est sur le point de se produire face à de l'argent déjà dépensé, et à discuter du sophisme des coûts irrécupérables avant d'aborder le problème réel, de sorte que les personnes soient conscientes et logiques et que la personne formée (du moins l'espère-t-on) à gérer au mieux ce genre de situation soit présente et prête à désamorcer les émotions liées aux coûts irrécupérables. Une gestion prudente d'une réaction potentiellement alimentée par les émotions est importante. Ce n'est pas le moment de tenter de dissimuler les faux pas, qu'ils soient financiers ou techniques, ce qui est précisément ce que la réaction émotionnelle engendre. Il est nécessaire que toutes les parties communiquent et restent détachées et logiques afin de répondre aux besoins. Certaines entreprises gèrent bien cela, beaucoup non et se retrouvent piégées à tenter d'avancer avec de mauvaises décisions déjà prises, probablement dans l'espoir que rien de fâcheux ne se produise et que personne ne se souvienne ou ne remarque. Combattez cette réaction. Tout le monde l'a, c'est la réponse émotionnelle naturelle de « combat ou fuite » de l'amygdale.

Maintenant que nous sommes prêts à combattre les réactions émotionnelles face au problème, nous pouvons commencer à aborder la question « où allons-nous à partir d'ici ». La bonne nouvelle, c'est que là où nous nous trouvons est généralement une position où l'on a « trop » plutôt que « trop peu ». Nous avons donc l'occasion de faire preuve d'un peu de créativité. Heureusement, il existe généralement de bonnes options qui peuvent nous permettre d'évoluer dans plusieurs directions.

Une chose très importante à noter est que nous examinons exclusivement des solutions plus fiables, et non moins fiables, que l'architecture de pyramide inversée de la catastrophe que nous remplaçons. Une IPOD est une conception très fragile et dangereuse, et nous pourrions nous étendre longuement sur des concepts comme l'analyse des risques, les points de défaillance uniques, les sophismes de la fausse redondance, le fait de considérer la redondance plutôt que la fiabilité, les chaînes de dépendances, etc., mais ce qu'il est absolument essentiel que toutes les parties comprennent, c'est qu'un serveur unique, fonctionnant avec un stockage local, est plus fiable que ne le serait l'ensemble de l'infrastructure IPOD. C'est si important qu'il faut le répéter : si un serveur unique correspond à une « disponibilité standard », l'IPOD se situe en dessous de cela. Plus risqué. Si quiconque, à ce stade, craint un « manque de redondance » ou un « manque de complexité » dans les solutions qui en résultent, nous devons en revenir à ceci : rien de ce dont nous discuterons n'est aussi risqué que ce qui avait déjà été conçu et acheté. S'il existe la moindre crainte du risque pour l'avenir, cette crainte aurait dû être plus grande avant que nous n'améliorions la fiabilité de la conception. On ne saurait trop insister là-dessus. Les IPOD se vendent parce qu'elles trompent aisément ceux qui ne sont pas formés à l'analyse des risques et paraissent fiables alors qu'elles sont en réalité tout sauf cela.

Comprendre ce qui précède et utiliser une technique appelée « relecture » de l'architecture IPOD acceptée nous indique que l'entreprise en question acceptait de ne pas disposer d'une haute disponibilité (ni même d'une disponibilité standard) au moment de l'achat de l'IPOD. Peut-être croyait-elle qu'elle l'obtenait, mais l'architecture ne pouvait pas la fournir, et donc, pour aller de l'avant, nous avons la possibilité de « faire avec » rien de plus qu'un serveur unique, fonctionnant sur son propre stockage local. C'est simple et facile, et cela améliore presque tous les aspects de la conception IPOD prévue. Cela coûte moins cher à exploiter et à maintenir, c'est souvent plus rapide et bien moins complexe tout en étant légèrement plus fiable.

Mais il est probable que se contenter de redescendre à un seul serveur et d'espérer trouver des usages pour le reste de l'équipement acheté « ailleurs » ne sera pas notre meilleure option. Dans les situations où l'IPOD n'était censée être utilisée que pour une seule charge de travail ou un ensemble de charges de travail, et où d'autres secteurs de l'entreprise ont également besoin d'équipement, il peut être très avantageux d'adopter l'approche du « serveur unique » pour la charge de travail IPOD prévue et d'utiliser l'équipement restant ailleurs dans l'entreprise.

L'approche la plus courante pour réaffecter une pile IPOD consiste à reconfigurer les deux (ou plusieurs) nœuds de calcul afin qu'ils deviennent des nœuds à pile complète contenant leur propre stockage. Cette étape peut ne nécessiter aucun achat, selon le stockage déjà acquis, un déplacement de disques entre les systèmes ou, souvent, l'achat relativement modeste de disques durs supplémentaires à cet effet.

Ces nœuds peuvent ensuite être configurés selon l'un des deux modèles de haute disponibilité. Par le passé, un choix de conception courant, pour des raisons de coût, consistait à utiliser un modèle de réplication asynchrone (souvent connu sous le nom d'approche Veeam) qui réplique les machines virtuelles entre les nœuds et permet de démarrer les VM très rapidement, autorisant ainsi un temps d'arrêt, depuis le moment de la défaillance du nœud de calcul jusqu'à la reprise, de quelques minutes seulement.

Aujourd'hui, la tolérance aux pannes entièrement synchrone est si couramment disponible gratuitement qu'elle a effectivement remplacé le modèle asynchrone dans la quasi-totalité des cas. Dans ce modèle, le stockage est répliqué en temps entièrement réel entre les nœuds de calcul, ce qui permet au basculement de se produire instantanément, plutôt qu'avec quelques minutes de délai, et avec une perte de données nulle au lieu d'une petite fenêtre de perte de données (par exemple, un RPO de zéro).

À ce stade, il semble courant que les gens réagissent à la réplication par une crainte de perte de capacité de stockage causée par la réplication. Bien entendu, cela est vrai. Il est nécessaire de comprendre que c'est cette réplication, absente de la conception IPOD d'origine, qui fournit le socle solide d'une grande fiabilité. Si l'on fait l'impasse sur cette réplication, la haute disponibilité devient un rêve inaccessible, et des nœuds de calcul individuels utilisant un stockage local en mode « autonome » constituent l'option la plus fiable possible. Les solutions de haute disponibilité reposent sur la réplication et la redondance pour bâtir la fiabilité nécessaire afin de pouvoir prétendre à la haute disponibilité.

Cela résout la question de savoir quoi faire de nos nœuds de calcul, mais nous laisse face à ce que nous pouvons faire de notre dispositif de stockage partagé externe, le point de défaillance unique ou la « pointe » de la conception en pyramide inversée. Pour répondre à cette question, nous devrions commencer par examiner ce que pourrait être ce stockage.

Il existe trois types courants de dispositifs de stockage qui seraient utilisés dans une conception en pyramide inversée : le DAS, le SAN et le NAS. Nous pouvons regrouper le DAS et le SAN, car ils constituent deux aspects différents du stockage par blocs et peuvent être utilisés de manière essentiellement interchangeable dans notre discussion — ils ne se distinguent que par l'existence d'une commutation, qui peut être ajoutée ou supprimée selon les besoins dans nos conceptions. Le NAS se distingue en ce qu'il s'agit d'un stockage de fichiers plutôt que d'un stockage par blocs.

Dans les deux cas, stockage par blocs (DAS ou SAN) ou de fichiers (NAS), l'une des utilisations les plus courantes de ce dispositif désormais superflu est de servir de cible de sauvegarde pour notre nouvelle infrastructure de virtualisation. Dans de nombreux cas, le dispositif peut être surdimensionné pour cette tâche, offrant généralement plus de performances et bien plus de fonctionnalités que nécessaire pour une simple cible de sauvegarde, mais un bon stockage de sauvegarde est important pour toute infrastructure d'entreprise critique, et pécher par excès n'est pas nécessairement une mauvaise chose. Les entreprises tentent souvent de lésiner sur leurs infrastructures de sauvegarde, et c'est là une occasion d'y investir massivement sans dépenser d'argent supplémentaire.

Dans le même esprit que le stockage de sauvegarde, le dispositif de stockage externe pourrait être réaffecté comme stockage d'archivage ou comme autre « niveau inférieur » de stockage où la haute disponibilité ne se justifie pas. Il s'agit d'une approche moins courante, généralement parce que toute entreprise a besoin d'un bon système de sauvegarde, mais que seules certaines disposent d'un moyen d'exploiter un niveau de stockage d'archivage.

Au-delà de ces deux modèles de stockage courants et universels, un cas d'usage fréquent pour les dispositifs de stockage externe, en particulier si le dispositif est un NAS, consiste à l'exploiter dans son rôle natif de serveur de fichiers distinct de l'infrastructure de virtualisation. Pour de nombreuses entreprises, le service de fichiers n'est pas aussi critique en matière de disponibilité que l'infrastructure de virtualisation centrale, et les sauvegardes y sont bien plus faciles à maintenir et à gérer. En déchargeant le service de fichiers vers un dispositif NAS déjà acquis, on peut réduire les exigences de service de fichiers de l'infrastructure de virtualisation, à la fois en réduisant le nombre de VM qui doivent y être exécutées et en déplaçant ce qui est généralement l'un des plus gros consommateurs de stockage vers un dispositif distinct, ce qui peut abaisser les exigences de performance de l'infrastructure de virtualisation ainsi que ses exigences de capacité. Ce faisant, nous réduisons potentiellement le coût de l'acquisition des disques durs supplémentaires nécessaires au stockage local sur les nœuds de calcul, comme nous l'avons indiqué précédemment, et c'est pourquoi cette méthode peut être très prisée par de nombreuses entreprises pour répondre aux besoins de réaffectation.

Chaque entreprise est unique, et il existe potentiellement de nombreux endroits où un équipement de stockage excédentaire pourrait être utilisé efficacement, des laboratoires aux archives en passant par le stockage hiérarchisé. Un peu de créativité et une réflexion hors des sentiers battus peuvent être mises à profit pour prendre votre ensemble unique d'équipements disponibles et l'ensemble unique des besoins et exigences de votre entreprise, et trouver le meilleur endroit pour utiliser cet équipement là où il est découplé de l'infrastructure de virtualisation centrale et critique, tout en apportant de la valeur à l'organisation. En évitant la pyramide inversée de la catastrophe, nous pouvons tirer la valeur maximale de l'équipement dans lequel nous avons déjà investi, plutôt que de mettre en place une nouvelle dette technique que nous devrons ensuite nous efforcer de surmonter inutilement.

Mots-clésinverted pyramid patterns system design

À lire également.

La banalisation de l'architecture

Comprendre le rôle du Dell VRTX

Que faire maintenant ? Anticiper les changements de conception