Bonnes pratiques de l'industrie

Introduction

L’objectif de ce court chapitre vise à fournir un recueil des bonnes pratiques en matière de protection des données.

Supervision de l’infrastructure

Il convient doublement de superviser les différents équipements de production, mais également l’infrastructure de sauvegarde et tout équipement jouant un actif en matière de protection des données. La supervision permet de répondre à trois objectifs distincts :

Prévenir de manière proactive d’un futur incident affectant les activités de l’entreprise : les disques durs modernes disposent d’un système de surveillance prédictif visant à vérifier leur état de santé (Self-Monitoring, Analysis, and Reporting Technology - SMART), la mesure de la température de la salle système ou la vérification de l’espace disque disponible sont des exemples parmi tant d’autres.
Notifier la survenance d’un incident au niveau de l’infrastructure de production ou de sauvegarde : l’échec d’une tâche de sauvegarde, la panne d’un des contrôleurs d’une baie de stockage ou d’un équipement réseau sont autant d’incidents qu’il convient de gérer.
Confronter les performances théoriques avec les performances réelles des ressources réseau, serveur et stockage.

1. Diminuer les risques encourus

Compte tenu de la multiplication des différents équipements informatiques, la supervision doit impérativement être centralisée et disposer d’un système de filtrage visant à ne conserver que les alarmes jugées critiques. Une console de supervision permet d’obtenir l’état de santé global des équipements de l’entreprise.

Selon les équipements à superviser, la notification de panne ou de dépassement d’un certain seuil paramétré fait l’objet d’un envoi de message. Les principaux moyens d’expédition de ce message sont les suivants :

trappe SNMP (Simple Network Management Protocol) ;
passerelle SMTP (Simple Mail Transfer Protocol) ;
redirection vers un serveur Syslog (System Logging Protocol) ;
fichier journal ;
script personnalisé avec envoi de SMS, par exemple.

La notification en temps...

Édition de rapports

La mise en place d’un mécanisme de supervision constitue un prérequis indispensable pour l’édition de rapports. La surveillance en temps réel des différents dispositifs présents au niveau de l’infrastructure informatique repose sur un processus de collecte de données. À défaut de disposer de ces données, il s’avère par conséquent impossible de produire des rapports relatifs aux critères de santé, de capacité ou de performance de l’infrastructure de l’entreprise, voire d’alerter les opérateurs suite au dépassement de certains seuils jugés critiques, tels que l’utilisation du stockage disque par exemple.

1. Édition de rapports statistiques

Les rapports fournissent un état statistique à un instant donné sur des évènements passés. Le nombre de travaux de sauvegarde, le volume de données sauvegardées grâce à une sauvegarde totale ou incrémentale ou encore les performances moyennes d’une tâche sont des informations utiles à connaître et d’autant plus utiles quand il s’agit de produire un rapport relatif à la qualité de service.

Par exemple, on calcule le taux de réussite des tâches de sauvegarde quotidienne, hebdomadaire ou mensuelle...

Gestion des incidents

Un incident désigne un évènement indésirable et imprévu entravant la production de l’entreprise. Un sinistre peut engendrer un ou plusieurs incidents faisant chacun l’objet d’une prise en charge spécifique dans le cadre d’une procédure de gestion des incidents. Une défaillance matérielle d’un disque dur dans un volume en RAID5 représente un sinistre à part entière sans conséquence particulière. Néanmoins, le traitement applicable à cet incident consiste à remplacer, dans les meilleurs délais, le disque dur défaillant.

En l’absence de toute prise en charge et d’une défaillance d’un autre disque dur au sein du même volume RAID, un nouveau sinistre intervient avec pour conséquences l’indisponibilité immédiate du service et une perte de données, comme détaillé dans le chapitre Métriques techniques et niveaux de service - L’intervalle de fonctionnement en mode dégradé. Ainsi, la gestion de ce nouvel incident nécessite l’application d’une procédure de traitement différente, visant non seulement à remplacer les disques défaillants, mais également à restaurer les données perdues par la suite.

Le processus décrit...

Stratégie Disk-to-Disk-to-X

Cette stratégie a pour objet de disposer de plusieurs copies de sauvegarde avec comme objectif le respect de la règle d’or décrite dans le chapitre Disponibilité et résilience des données. La création simultanée de plusieurs copies de sauvegarde reste difficile à implémenter compte tenu des limitations et des différences de performances selon les dispositifs de stockage utilisés.

Une sauvegarde de données dite en miroir réduit la vitesse d’écriture à celle du dispositif de stockage le moins performant des deux durant la phase de stockage. Elle reste par conséquent difficilement applicable dans un environnement de production.

Compte tenu de ces limitations, la stratégie Disk-to-Disk-to-X permet de créer une deuxième puis une troisième copie de sauvegarde à partie de la copie originelle, en déclenchant un processus de duplication de données manuel ou automatique depuis la solution de sauvegarde. On décline ainsi cette stratégie selon le dispositif de stockage de destination utilisé (X).

1. Stratégie D2D2T

La stratégie ci-après est dite D2D2T (Disk-to-Disk-to-Tape). On obtient la première copie de sauvegarde (Copie 1) au moyen d’une stratégie de sauvegarde D2D. On duplique ensuite cette...

Obsolescence des supports de stockage secondaire

Les changements technologiques, notamment au niveau des lecteurs de bandes, nécessitent la migration ou la recopie des données sur des supports vieillissants. La robotique de bandes signale au moyen d’un code Tape Alert 7 (Media Lifetime) la fin de vie des certaines cartouches. D’autres codes d’avertissement signalant des problèmes ponctuels en lecture/écriture représentent autant d’indicateurs nécessitant une opération de recopie de données, sur un autre support de stockage, dans les meilleurs délais.

Quantum équipe ses robotiques haut de gamme de la fonctionnalité Extended Data Life Management (EDLM) permettant d’instaurer une politique proactive de contrôle de l’intégrité des cartouches, au moyen de tests de relecture. À défaut de disposer de ce type de fonctionnalités, il convient de procéder à la réalisation de tests réguliers au moyen de restauration depuis des supports vieillissants.

En cas d’acquisition d’un nouveau dispositif de stockage sur bande équipé de lecteurs LTO de nouvelle génération, il convient de budgétiser le temps nécessaire à la migration préalable des cartouches antérieures à deux générations. Le temps de recopie...

Règle de sauvegarde 3-2-1

On attribue l’invention de cette règle d’or en matière de sauvegarde des données à Peter Krogh. Ce photographe, expert également dans la gestion des actifs numériques, décrit dans son livre « The DAM Book: Digital Asset Management for Photographers » cette stratégie pour la toute première fois. La règle de sauvegarde 3-2-1 ayant fait ses preuves, elle est désormais communément admise comme bonne pratique par les différents acteurs du monde de la protection des données.

1. Règles relatives aux différentes copies

Elle invite à respecter les points suivants :

3 copies de sauvegarde distinctes : ce premier postulat diminue ainsi drastiquement le risque de perte simultanée de chacune des copies en s’appuyant sur un calcul de probabilité d’évènements multiples. Quelle est la probabilité de perdre simultanément les copies de sauvegarde ? En considérant que chaque évènement reste indépendant l’un de l’autre, il convient de multiplier chacune des probabilités. Ainsi, avec un dé à six faces, la probabilité d’obtenir le chiffre 4, par exemple, est d’une chance sur six, soit 16,67 %. En lançant deux dés à 6 faces, on calcule la probabilité d’obtenir simultanément le...

Réalisation de tests réguliers

La mise en place d’une politique de protection de données sans test régulier constitue également une erreur stratégique majeure. L’absence de temps et de moyens techniques visant à tester régulièrement les outils de protection de données représentent souvent les principaux arguments et obstacles à leur réalisation. Les tests n’ont pas pour objet de mettre en évidence ce qui fonctionne, mais son contraire.

Chaque test doit s’appuyer sur une procédure de restauration ou de récupération des données rédigée à l’avance. Cette procédure décrit précisément l’état initial de la situation et l’ensemble des étapes à dérouler pas à pas, illustrées au moyen d’une copie d’écran ou de toute information utile à l’opérateur de test. Chaque test permet également de procéder à la rédaction initiale d’une procédure ou à y apporter des corrections suite à chaque retour d’expérience.

Il convient de sortir d’une zone de confort, afin de tester certains scénarios tels que décrits dans le chapitre relatif à la restauration des données, dont le résultat demeure incertain tant sur le plan fonctionnel ou sur le temps nécessaire à son déroulement. L’exécution de tests réguliers permet ainsi de valider le respect des SLA définis, de gagner en confiance, en réduisant le niveau de stress naturel induit en cas de sinistre.

1. Définition du périmètre et des objectifs

Il convient tout d’abord de convenir du périmètre du test à entreprendre et des objectifs à atteindre : ce dont on souhaite vérifier le fonctionnement. La complexité du test implique en effet une mobilisation de moyens humains et techniques variables et influence sa durée d’exécution. La restauration d’un...