Quand une sauvegarde n'est pas une sauvegarde

Sur le plan conceptuel, la notion de « sauvegarde » est devenue un domaine flou au sein de l'informatique. Chacun semble avoir sa propre conception de ce qu'est une sauvegarde et de la manière dont il s'attend à ce qu'elle se comporte. Cela peut s'avérer dangereux lorsque la personne qui fournit la sauvegarde et celle qui la consomme ont des attentes divergentes. Je constate ce phénomène chaque jour, même avec les mécanismes de sauvegarde traditionnels. Avec l'apparition régulière de nouveaux types de sauvegardes, les occasions de malentendus et de pertes de données deviennent bien plus prononcées.

Par sauvegardes traditionnelles, je fais référence au monde classique des sauvegardes sur bande s'appuyant sur une stratégie de rotation grand-père — père — fils, simplement pour planter le décor de la discussion. Les nouvelles sauvegardes peuvent inclure les images système, les sauvegardes sur disque, les sauvegardes continues et les sauvegardes vers « le cloud » ou sauvegardes en ligne. Le monde des sauvegardes évolue rapidement, et c'est maintenant que les malentendus commencent à mettre en péril les ressources de données de l'entreprise.

Alors, qu'est-ce au juste qu'une « sauvegarde » ? Le concept paraît simple, mais que voulons-nous réellement dire lorsque nous employons ce terme ? Entendons-nous par là la capacité à restaurer un système après une panne ? La capacité à revenir à une version antérieure d'un fichier ? Peut-être l'archivage de données lorsque l'original n'existe plus ? Pendant combien de temps quels fichiers sont-ils conservés ? Cela s'applique-t-il uniquement aux données de fichiers, ou les courriels et les bases de données sont-ils également inclus ? Avons-nous seulement besoin de restaurer en cas de panne système, ou bien avons-nous aussi besoin de pouvoir restaurer des données granulaires ? N'avons-nous besoin que d'une seule copie, ou nous faut-il des copies de chaque version d'un fichier ?

Aujourd'hui, avec les risques supplémentaires posés par des phénomènes tels que les rançongiciels, nous avons davantage de préoccupations que jamais auparavant, et les idées portant non seulement sur le versionnage, mais aussi sur un versionnage potentiellement illimité ainsi que sur l'isolement physique entre les systèmes et les sauvegardes, sont devenues une préoccupation là où, auparavant, elles ne l'étaient généralement pas.

De nombreuses organisations, en particulier les plus petites, choisissent souvent d'aborder les sauvegardes un peu différemment des grandes entreprises et renoncent fréquemment complètement aux sauvegardes. Au lieu de cela, elles « réalisent des sauvegardes », mais suppriment ensuite souvent les fichiers d'origine. Et plutôt que de conserver de nombreuses copies des fichiers ayant été « sauvegardés », elles optent pour ne garder qu'une seule copie (ou plusieurs versions interdépendantes les unes des autres). Cela signifie que ce dont elles disposent n'est en réalité pas une sauvegarde, mais plutôt une archive. Si l'unique disque ou bande sur lequel le fichier est stocké vient à être endommagé, le fichier est complètement perdu.

Le terme sauvegarde implique qu'il existe au moins deux copies d'une même donnée qui ne dépendent pas l'une de l'autre. Une archive ne suppose pas cela et implique simplement que nous avons transféré des données de la production vers un autre système, vraisemblablement un système moins coûteux et probablement bien plus lent et plus difficile d'accès pour récupérer les données. Les données archivées n'impliquent aucune redondance, contrairement au terme sauvegarde.

Si nous « réalisons une sauvegarde » puis procédons à la suppression des données d'origine, nous ne disposons plus d'une sauvegarde, et le fichier stocké dans le « système de sauvegarde », que ce soit sur disque, sur une bande dans un coffre ou autre, se transforme en une archive des données d'origine plutôt qu'en une sauvegarde de celles-ci. Il devient désormais notre fichier source, au lieu d'être une copie. C'est là une part de la magie des supports numériques : les copies sont un clone plutôt qu'une imitation, de sorte que l'élément archivé est légitimement l'original à tous égards.

Cela peut sembler pédant, mais ce ne l'est vraiment pas. Si une entreprise paie pour des sauvegardes, elle suppose probablement que ce coût sert à disposer d'une certaine redondance, et non simplement d'une copie unique des données. Et si vous êtes soumis à des réglementations vous imposant de conserver des sauvegardes pour des raisons de conformité, ne disposer que d'une copie d'archive constitue une violation manifeste de cette exigence. Voir deux systèmes tomber en panne et se retrouver dans l'impossibilité de récupérer les données est un cas extrême que toute conformité se doit d'accepter. Mais voir un système d'archivage tomber en panne là où une sauvegarde était requise mais n'a pas été conservée n'est pas un scénario acceptable.

Pour cette raison, et bien d'autres encore, des concepts tels que la méthodologie de sauvegarde 3-2-1 ont du sens, car cette approche garantit que les sauvegardes sont conservées au sein du système de sauvegarde et que les originaux n'ont pas besoin d'être conservés en production. D'une certaine manière, on pourrait considérer cette approche comme une fusion de l'archivage et de la sauvegarde au sein d'un même système, ce qui apporte beaucoup de clarté à la conception.

Quel que soit le système de sauvegarde qui vous convient, soyez conscient que les sauvegardes désignent des copies indépendantes et qu'à bien des égards, des copies indépendantes ne partageant pas de domaines de défaillance sont devenues une quasi-exigence pour toutes les sauvegardes aujourd'hui.

À lire également.

Le point d'inflexion du RAID logiciel

Nouvelle hyperconvergence, ancien stockage

Les PME doivent cesser de se tourner vers BackBlaze pour s'orienter