5 conseils pour réduire le volume de données que vous stockez

L’explosion du volume de données dans les entreprises pose de moins en moins la question des coûts de stockage. En revanche, la gouvernance des données doit être profondément renouvelée de ce fait. Alors oui, vous pouvez toujours acheter des instances de stockage sur site ou dans le cloud en plus. En attendant, voici quelques conseils, meilleures pratiques et outils qui permettent de désengorger les silos de données de votre entreprise.

 

1. Décider quelles sont les données qui valent la peine d’être stockées

Certaines données doivent très clairement être gravées dans le marbre. Les finances de l’entreprise, par exemple, mais aussi les dossiers du personnel, ne sauraient être passés par dessus bord. Ces données doivent être conservées très longtemps par l’organisation, ne serait ce que pour des raisons légales.

Reste que la qualité des données se dégrade rapidement lorsqu’elles sont manipulées sur les devices mobiles et les postes de travail des collaborateurs. C’est pour cette raison que les données doivent être gérées dans le cadre d’un cycle de vie des données : une donnée doit être créée, stockée, utilisée, archivée, et détruite dans le cadre d’un processus défini et contrôlé.

Certains pensent toutefois que toutes les données ont une valeur résiduelle sur laquelle peut se construire des services. C’est même souvent un des arguments des promoteurs des projets de Big Data. Dans les faits, le coût du stockage des données mais surtout celui de l’analyse Big Data et l’étude des résultats dépasse souvent cette valeur résiduelle. A tout le moins, une étude qui prend en considération ces critères doit être réalisée avant d’aller de l’avant.

2. Penser gestion du cycle de vie des données

De toute évidence, conserver la plupart des données anciennes n’est ni sûr ni rentable. Faites rapidement un tour d’horizon : la plupart de ces données n’ont aucune valeur et ne seront jamais consultées à nouveau. C’est pourquoi les administrateurs devraient mettre en place un processus pour éviter la mise en place d’un chaos dans le périmètre de stockage.

Au mieux, la gestion du cycle de vie des données doit commencer dès la création des données. Et presque toutes les données devraient disparaître après une certaine durée de vie, déterminée à l’avance. Tout ce qui est vraiment important doit être labellisé pour y mentionner une disparition antérieure ou ultérieure à la norme, ou pour un archivage spécifique. Et pour ce faire, il y a des outils.

3. Penser au stockage objets

Un des grands avantages des outils de stockage objet ce sont leurs métadonnées extensibles. Cela permet à un administrateur de mentionner des actions sur le cycle de vie de la donnée via l’édition des métadonnées de l’objet. Comme la date de suppression par exemple.

Pour ce faire, il faut néanmoins disposer d’un outil qui détecte et travaille sur ces métadonnées et qui permet de mettre en place une politique de gestion basée sur cette technologie. Cet outil permet de créer des groupes par type, utilisateur et autres attributs. Des produits tels que Ceph Storage, Caringo Swarm et Scality Ring permettent d’ajouter des attributs de métadonnées définis par l’utilisateur sous la forme de clés ou de paires de données.

4. Penser déduplication

La déduplication est une autre réponse à l’explosion des données. Cet outil est souvent disponible dans les baies full flash et certains autres produits pour effectuer du post-traitement des données stockées, généralement au fur et à mesure que les données sont déplacées vers un stockage secondaire. En traitant les objets quand ils sont positionnés dans les instances de stockage, un système peut détecter les fichiers qui existent déjà et donc créer un pointeur plutôt qu’une nouvelle copie.

Cette approche utilise une clé de hachage unique pour détecter des variantes d’objets portant le même nom afin d’éviter ce piège très courant. A noter que la déduplication peut être soumise à des politiques de gestion des données. La suppression d’un objet dédoublé peut être facile, en conservant objet et quelques pointeurs, mais aussi difficile lorsque les propriétaires veulent que leur copie expire à des moments différents, par exemple.

5. Les outils de gestion du cycle de vie des données

Il existe déjà des outils de gestion du cycle de vie des données qui permettent de gérer non seulement du stockage objet, mais aussi des données en mode bloc, ou en fichier. Au titre des startups, on notera le dynamisme d’Actifio, de Data Gravity ou encore Qumulo. IBM et SAP sont à noter chez les géants.

Pour aller plus loin sur ce sujet