Le stockage

Name: Débuter et se perfectionner avec Azure Concepts fondamentaux et mise en œuvre (2e édition)
Rating: 4.5 (2 reviews)

Introduction

Là encore, il s’agit d’une fonctionnalité centrale du système d’information, que ce soit sur site ou dans le cloud Azure. Le terme stockage couvre un ensemble d’utilisations très variées. Stocker de la donnée, c’est stocker des petits ou gros volumes, constitués de petits ou de gros fichiers. C’est aussi stocker des informations ou des données sous forme de tables. Ce stockage se fait pour des données structurées ou des données qui ne le sont pas.

La notion de petits ou des gros volumes doit être mise dans le contexte Azure. Il n’est plus question, depuis bien longtemps, de gigaoctet, mais plutôt de téraoctet ou même de pétaoctet. Les solutions Big Data demandent de pouvoir travailler sur ces énormes volumes. Dédiées à l’analytique, elles demandent aussi de traiter les données avec des débits très importants.

On observe donc un mode de fonctionnement bien différent du stockage de fichiers pour une application, d’une source d’installation ou de fichiers textes.

C’est aussi pouvoir travailler sur des solutions d’archivage de longue durée ou des données immuables (que l’on ne peut pas modifier, souvent pour répondre à des contraintes légales ou sécuritaires). Ce sont d’ailleurs souvent ces mêmes contraintes qui obligent à stocker les données dans une région géographique particulière, par exemple pour respecter le règlement...

Présentation du compte de stockage

Le compte de stockage est l’élément de base lorsque l’on parle de stockage Azure, parce qu’il est utilisé par Azure lui-même pour certaines fonctionnalités. Les outils de diagnostic mis en œuvre sur la machine virtuelle dans le chapitre Le calcul, la machine virtuelle, s’appuient sur un compte de stockage. Il en est de même pour le chapitre Le code, où la console cloud Shell du portail Azure s’appuie elle aussi sur un compte de stockage.

Mais le compte est aussi utilisé de manière « cachée » par certains services, comme les services de sauvegarde Azure qui utilisent en arrière-plan un compte de stockage pour stocker les données de sauvegardes.

C’est donc une fonctionnalité que l’on trouve naturellement dans son environnement, puis qui est utilisée pour tout ce que l’on souhaite stocker, sans distinction ou presque, directement ou indirectement derrière certains services Azure.

1. Le blob

L’élément central du compte et dont on entend parler sans cesse est l’objet de stockage blob (Binary Large Object). Il est conçu pour les petits, moyens ou grands volumes de données et pour des données non structurées. Dans la liste des données non structurées on retrouve les fichiers texte, les images, les vidéos, les logs, les données de sauvegarde, etc. Il y a toujours une petite hésitation lorsque l’on évoque les blobs. Ce n’est pas un service de stockage à proprement parler mais plutôt un objet. Cela définit tout à la fois un fichier texte de quelques kilo-octets, un fichier de logs de très grande taille qui va croître au fur et à mesure des ajouts d’informations...

L’explorateur de stockage

L’explorateur de stockage ou Microsoft Azure Storage Explorer est un outil complémentaire au portail Azure. Il permet d’exploiter les comptes de stockages, ou plus directement les blobs, les files d’attente, etc.

Son installation est optionnelle, il est aussi disponible sous une forme simplifiée dans le menu des comptes de stockage sous le nom de Navigateur de stockage. Navigateur de stockage est utile lorsqu’il s’agit de parcourir l’arborescence d’un seul compte de stockage puisqu’il est disponible dans le menu du compte, Microsoft Azure Storage Explorer est plutôt pertinent lorsqu’il s’agit d’exploiter un grand nombre de comptes, tous ceux auxquels il est connecté.

Pour cette démonstration, en prérequis, il faut créer un compte de stockage.

Depuis le portail Azure, dans la fenêtre de recherche, renseignez compte de stockage puis sélectionnez Comptes de stockage.

Choisissez + Créer, sélectionnez le groupe de ressources rg-formation-eni-test, puis nommez le compte stdemoazureexplorer01 dans le champ Nom du compte de stockage.

Sélectionnez la région (Europe) France-Centre, le niveau de performance Standard et un niveau de redondance Stockage localement redondant (LRS). Ne modifiez pas les autres paramètres et conservez les valeurs proposées.

Poursuivez par Suivant, consultez les différentes options sur ce menu. Puis cliquez sur Suivant. Là aussi, consultez les informations et paramètres, conservez les valeurs par défaut puis cliquez sur Suivant pour arriver sur l’onglet Protection des données.

Cet onglet est encore très complet....

Sécurité du stockage

Le stockage, ce sont les données de l’entreprise. À ce titre, elles doivent être protégées et l’accessibilité doit être contrôlée finement. Comme expliqué en introduction, il y a une différence entre l’accès au compte de stockage, c’est-à-dire la ressource Azure et l’accès aux données qu’il contient. Ce point va être vu en détail un peu plus bas dans ce chapitre.

Mais la sécurité est aussi une question de redondance. Du premier niveau de protection sous la forme d’une redondance locale LRS (Locally Redundant Storage) à la redondance géographique interzone GZRS, il existe une solution pour chacun des types de données. En renfort de toutes ces solutions, et pour éviter les pertes de données, un mécanisme de suppression réversible est proposé sur les blobs, les conteneurs et les partages de fichiers. Cette option est activée pour 7 jours par défaut (valeurs possibles de 1 à 365 jours). Ce point vient d’être vu dans les écrans de création du compte de stockage.

Citons une nouvelle fois un dernier élément pouvant trouver sa place dans la sécurité : les données non modifiables, que l’on trouve également sous le terme immutable en anglais. Pour des raisons légales principalement, ces données ne sont ni modifiables ni effaçables...

Les accès

Pour en revenir à la sécurité d’accès, elle impose une gestion très complète et demande le plus grand soin.

Les accès aux comptes de stockage se font de plusieurs façons différentes. Il faut, dans un premier temps, distinguer les accès à la racine du compte qui offrent un contrôle total sur tout ce qui est stocké dans les blobs, les files, les queues et les tables. C’est donc un accès qui n’est pas granulaire, il est positionné au plus haut.

Mais une gestion d’accès plus granulaire est possible. Elle est même souhaitable. Donner des accès à la racine est déconseillée car elle contrevient au principe de moindre privilège ; ce n’est pas recommandé, sauf dans de très rares cas où le compte est réservé à une seule utilisation. Granulaire ou non granulaire, le compte de stockage, comme d’autres ressources Azure (par exemple, le Key Vault, le coffre de clefs, secrets, certificats) a un accès à deux niveaux :

plan de contrôle ;
plan de données.

Ce point a été présenté dans le chapitre Identité et accès. Pour rappel, l’accès à la ressource compte de stockage avec le rôle Azure le plus fort sur une ressource (Owner ou propriétaire) donne l’accès au contenu, c’est-à-dire aux données qui se trouvent dans les différents types de conteneurs, blobs, files, etc. Il est difficile de faire que l’administrateur de la ressource avec un très haut niveau de responsabilité sur Azure ne puisse pas par défaut consulter le contenu, la donnée. Il peut y avoir des données confidentielles (fiscale, ressources humaines, etc.), elles ne sont pas destinées à être lues mais les comptes de très haut niveau ont malgré tout cette capacité. Le nombre de Propriétaires est limité et c’est un rôle à responsabilité où l’on considère que cette habilitation demande une grande confiance.

Pour en revenir à la méthode d’accès, il y a encore un peu de complexité pour donner les bons niveaux.

les RBAC (Role-Based Access Control - contrôle...

Optimiser son stockage

L’optimisation du stockage n’est pas toujours une priorité. Ici, le terme optimisation ne couvre pas seulement l’optimisation des performances mais quelques options complémentaires. En voici quelques-unes particulièrement utiles car elles vont apporter du confort dans l’utilisation, ou parce qu’elles vont optimiser le coût du stockage.

1. Inventaire des objets blobs

Réaliser l’inventaire des objets blobs, c’est en apprendre beaucoup sur le stockage de l’entreprise ; mais ce n’est pas forcément une action globale, il s’agit aussi d’une action individuelle pour améliorer la gestion de ses données. Un inventaire est une règle qui spécifie une portée (blob, conteneur) dans laquelle des champs d’inventaire sont sélectionnés.

Règles d’inventaire pour les stratégies d’immuabilité et l’affichage des accès public sur une portée conteneur

Ce rapport quotidien ou hebdomadaire est généré au format CSV directement dans le conteneur.

Il y a plusieurs manières d’utiliser l’inventaire, mais un usage est particulièrement intéressant et va aider à la préparation de l’action d’optimisation présentée dans la section à venir (Gestion du cycle de vie) : la détection des fichiers/blobs avec les champs d’inventaire suivants :

Dernière modification ;
Heure du dernier accès ;
Métadonnées.

Ces données sont ensuite exploitées pour identifier les fichiers qui ne sont plus utilisés...

Stockage sur disque

Le stockage disque est adapté aux machines virtuelles. Sur une machine, il y a deux ou trois disques différents : le disque qui stocke le système d’exploitation, il est attaché à la machine virtuelle ; le disque de stockage temporaire qui est perdu lorsque la machine virtuelle est arrêtée ; et le ou les disques de données qui sont ajoutés à la machine virtuelle au gré des besoins. Ces trois usages sont présentés dans le chapitre Le calcul, la machine virtuelle.

Une nouvelle fois, utiliser une ressource cloud est synonyme de choix et de souplesse, comme le montre le sous-menu Taille + performance du menu de gestion d’un disque Azure.

Sélection pour modification de taille d’un disque Azure, vue partielle

De la même façon qu’il est possible de modifier la taille d’une machine virtuelle (et donc les performances), il est possible de modifier celle d’un disque.

Du HHD Standard à stockage non redondant aux performances modestes et au SLA (Accords de niveau de service ou Service Level Agreements) limités jusqu’aux nouveaux disques ultra en passant par les SSD Premium à redondance interzone, tous les cas d’usages sont couverts. Performant, évolutif, Disque Azure ne présente pas de difficulté particulière de déploiement mais il offre...

Exemple de stockage pour le service de sauvegardes

Quelques services utilisent de manière implicite le stockage Azure. Un très bon exemple est le service de sauvegarde, Coffre Recovery Services. Il est présenté en détail dans le chapitre La sauvegarde mais est parfait pour illustrer ce sujet.

Créer un Coffre Recovery Services, c’est choisir son nom, sa région d’hébergement et ses balises, mais pas plus. Une fois le coffre créé (et seulement une fois qu’il est créé), une propriété Configuration de la sauvegarde est visible dans les paramètres du coffre.

Ici est spécifié le type de réplication du stockage : localement redondant, géo-redondant (et redondance de zone, en préversion disponible pour l’instant sur quelques régions). Ce paramètre est à modifier avant d’attacher une ressource pour la sauvegarder. Si une seule ressource est protégée par le coffre, il n’est plus possible de modifier ce paramètre.

Toujours sur le sujet du coffre de sauvegarde, il faut aussi noter que la modification de l’option de stockage et le passage d’un stockage localement redondant à un stockage géo-redondant donne accès à une option supplémentaire pour les sauvegardes. La fonctionnalité est enrichie et il est possible...

Azure Data Box

Lors d’une migration de gros volumes de données sur le cloud Azure, il n’est pas toujours possible de copier/synchroniser les données au travers du réseau. Si des volumes de l’ordre de quelques téraoctets sont envisageables, il devient beaucoup plus difficile de réaliser ces opérations au-delà de cette taille. Ainsi, Azure propose un service de transfert de données pour des tailles de 8 To à 1 Po.

Ce service de transfert est utilisé pour les import/export de données.

Quatre services sont disponibles pour cet usage. Ils sont tous appelés Data Box mais sont proposés sous des formes différentes :

Data Box Disk : un SSD de 35 To (Interface Sata ou USB). Transfert pour un volume total de 40 To. Le chiffrement est de type AES 128.
Data Box : proposé sous la forme d’une Box de type NAS (Network Attached Storage) avec des débits 2x10 Gbit/s, une taille maximum de 80 To et un chiffrement AES 256.
Data Box Heavy : ressemble à un chariot, pour des volumes jusqu’à 800 To, un chiffrement AES 256 et un débit de 4x40 Gbit/s.

Pour ces trois services, il existe une même méthode d’approvisionnement : une commande en ligne depuis le portail pour du matériel adapté à la volumétrie. Après une première sélection avec...

Exercices

Les exercices suivants vont utiliser toutes les notions présentées dans les différentes sections du chapitre. Il y a eu énormément de points abordés et quelques exercices importants en cours de présentation. La mise en pratique est importante pour mieux assimiler les fonctionnalités de stockage.

Dans ce premier exercice, un nouveau compte de stockage est créé, certaines des options traitées dans le chapitre sont revues ou mises en œuvre dès la création. Puis trois conteneurs sont ajoutés, ils vont servir de base aux exercices.

Depuis la barre de recherche du portail, saisissez compte stockage puis sélectionnez Comptes de stockage.

Choisissez + Créer, sélectionnez le groupe de ressources rg-formation-eni-test et nommez le compte stcloudshelleni002. Choisissez la région (Europe) France-Centre.

Cochez Standard : Recommandé pour la plupart des scénarios (compte universel v2), puis sélectionnez un niveau de redondance Stockage géo-redondant (GRS).

Vérifiez que l’option Proposez l’accès en lecture sur les données en cas d’indisponibilité régionale est bien cochée, puis cliquez sur Suivant : Avancé.

Sur cet écran, conservez les valeurs par défaut.

Poursuivez par Suivant.

Conservez les options par défaut, notez que l’accès réseau est par défaut une exposition publique. Sélectionnez Suivant.

Toutes les options de protection de données sont affichées dans cet écran. On y retrouve les options de suppression réversible pour les blobs, les conteneurs et les partages de fichiers. Modifiez ces trois valeurs et augmentez la durée de conservation à 14 jours, puis cliquez sur Suivant.

Il est recommandé d’activer les trois possibilités blob, conteneur et partage de fichiers pour se prémunir contre toute erreur lors de la suppression de données. Par exemple, la suppression d’un conteneur détruit également son contenu. Avec la suppression réversible activée, la récupération du conteneur est simplifiée et le contenu est automatiquement restauré dès que le conteneur est restauré....