waves
ARTICLE

Deuxième étape, le stockage des données

Nous avons constaté dans notre précédent article l’importance de la collecte des données de consommation énergétiques, à la fois atouts déterminants pour les fournisseurs d’énergie, moyens pour les usagers d’agir sur leur consommation et outils indispensables à la transition énergétique. Mais pour atteindre leurs objectifs, les données doivent être traitées avec le plus grand soin à chaque étape de leur cycle de vie : chacune doit faire l’objet de réflexions préalables afin de répondre aux objectifs à la fois stratégiques, techniques et réglementaires fixés par l’entreprise.

Les données, dont la quantité collectée ne cesse de croître, sont de plus en plus encadrées par les instances en charge de leur protection ; il devient donc primordial d’assurer leur sécurité.

Lorsqu'une entreprise stocke ses données, une stratégie vigoureuse de sauvegarde et de prévention des pertes doit être mise en place pour en garantir la sécurité tout au long de leur cycle de vie.

Le stockage des données

Les données fraîchement collectées sont stockées et il est primordial pour ce faire d’évoluer dans un environnement le plus sécurisé et le plus protégé possible. Un process de restauration robuste doit voir le jour afin de s’assurer la bonne conservation des datas dans le cycle. A ce stade, les données sont à l’état « brut » ; il conviendra d’aborder le choix des données à stocker à des fins d’exploitation à l’issue de la phase de traitement et la règlementation en matière de durée de stockage lors de la phase d’archivage.

Une quantité toujours plus grande de données à stocker :

Pour les particuliers et petits professionnels, outre les données de consommation journalières collectées par défaut, des données de consommation fines peuvent elles aussi être collectées par le gestionnaire du réseau de distribution : horaires et/ou à la demi-heure, les plus fines d’entre elles passeront bientôt à la maille 15 minutes. Cela signifie donc deux fois plus de données à stocker…et il est probable que la tendance se poursuive. Ces données de consommation fines ne sont collectées qu’avec l’accord de l’usager ou, de manière ponctuelle, lorsqu’elles sont nécessaires à l’accomplissement des missions de service public assignées au gestionnaire du réseau par le code de l’énergie (par exemple, pour l’entretien et la maintenance du réseau ou l’intégration des énergies renouvelables).

Elles apportent les informations nécessaires à l’optimisation de la consommation énergétique : grâce à elle, les fournisseurs d’électricité peuvent recommander la puissance à souscrire la plus adaptée aux consommations, analyser la part de la consommation réalisée pendant les Heures Creuses, détecter des consommations anormales. La transmission des données de consommation détaillée à des sociétés tierces, notamment à des fins commerciales, ne peut intervenir qu’avec l’accord de l’abonné.

S’ajoutent à ces donnéescelles des ménages en situation de précarité énergétique, collectées en temps réel à des fins de régulation et d’optimisation de leur consommation.

Initialement prévu avant le 1er octobre, les fournisseurs d’électricité et de gaz naturel devront finalement proposer fin 2022, une offre de transmission des données qui permettra un accès via :

· Une application digitale,

· Une interface de programmation d’application

· Ou un service web.

Nous pouvons également prendre en compte les informations collectées par les fournisseurs d’énergie dans le cadre de souscriptions à des nouveaux contrats ou de sondages à visées commerciales.

Enfin, aux données des particuliers et petits professionnels, s’ajoutent celles des entreprises : actuellement à la maille 10 minutes, suivant la même tendance que les données de consommation Linky, elles descendront bientôt à la maille 5 minutes, augmentant ainsi encore la quantité collectée.

Nous connaissons aujourd’hui la pollution engendrée par les data centers : leur consommation d’énergie au niveau mondial dépasse déjà̀ celle de la France entière, et devrait quadrupler d’ici 2030. Selon l’étude de GreenIT.fr de 2020, les centres informatiques sont responsables de 4 à 15 % des impacts du numérique français. Il est donc primordial de rationaliser la collecte et le stockage des données, de les réserver à des fins utiles. A cette préoccupation environnementale s’ajoutent les normes RGPD, stipulant, notamment dans les articles 5 et 6, que « l’ensemble des Traitements de Données à caractère personnel engage les fournisseurs d’énergie à collecter des données pour des finalités déterminées, explicites et légitimes ». A l’issue du traitement des données, ces éléments devront guider le choix des entreprises.

Un environnement sécurisé :

Par ailleurs, les données doivent impérativement être sauvegardées dans un environnement sécurisé et non accessible depuis l’extérieur de l’entreprise. Les architectes et urbanistes doivent donc mettre en place des solutions techniques adaptées :

- Environnement en DMZ

- Webservices cryptés avec utilisateurs et mot de passes spécifiques

- Ouverture et configuration des canaux de communications qui sont surveillés en permanence

- Outils de supervision de l’ensemble de l’infrastructure

- Sondes de tracking des échanges et états des services.

Solutions de stockage :

À l’heure actuelle, les possibilités de stockage sont nombreuses et il faut tenir compte des problématiques et besoins pour choisir la solution la plus adaptée à l’entreprise. Serveur local ? Cloud ? NAS ? Chaque support offre des avantages :

Stockage local/serveur :

Le serveur est connecté au réseau local de l’entreprise, qui doit fonctionner en permanence et qui est généralement construit autour de matériels redondants et fiables pour assurer un service 24 x 7. Il permet de partager des fichiers ou des bases de données. Cette solution implique d'investir dans l'achat de serveurs physiques et dans l'installation d’équipements informatiques adéquats. Leur durée de vie étant limitée, il faut aussi les renouveler et faire des sauvegardes régulières ; des dépenses de maintenance d'équipements sont également à prévoir. La capacité de stockage est limitée, cette solution concerne donc des entreprises de petites tailles, comme des ELD ayant une partie GRD et un moindre volume de données à stocker. L'utilisation des supports de stockage implique enfin une exposition importante à des risques de piratage, pannes matérielles (problème d'alimentation du serveur, défaillance du processeur…) ou sinistres (incendies…), pouvant entraîner la perte ou la détérioration des données.

Le serveur NAS (Network Attached Store) :

Il permet de sauvegarder les fichiers via un réseau local appelé LAN. Son avantage principal est qu’il centralise toutes les données d’une entreprise sur son système et facilite le partage de fichiers enregistrés. Les données ne sont bien sûr accessibles qu’aux utilisateurs disposant des autorisations et mots de passe requis. Le serveur NAS ne présente pas de risque de saturation de stockage, il est flexible et évolutif. Il est facile d’augmenter sa capacité de stockage en ajoutant des disques durs supplémentaires.

Le cloud assure aux entreprises la sécurité, l'accessibilité à leurs données et garantit une capacité de stockage quasi-illimitée. Pour tirer le meilleur parti d'une solution de stockage dans le cloud, il faut choisir un fournisseur judicieusement, savoir quel type de données il est prévu de stocker, à quelle fréquence on doit y accéder et suivre les meilleures pratiques de sécurité répertoriées. Voici les cinq principaux fournisseurs de stockage cloud :

· Stockage cloud Amazon Web Services (S3)

Amazon Web Services (AWS) S3 stocke et protège les données pour un large éventail de cas d'usage, avec une grande facilité d'utilisation, pour les clients de toutes tailles. Amazon S3 est conçu pour prémunir de toute perte de données. Des tests d'intégrité sont régulièrement effectués. Amazon Web Services est l'un des pionniers du stockage de données dans le cloud et une référence du secteur.

· Stockage Azure Cloud

Azure de Microsoft est massivement évolutif et offre un stockage sécurisé conçu pour les données structurées et non structurées. Il est réputé pour ses types de stockage Blob flexibles. Azure offre également la possibilité d'un partage de fichiers sécurisé et puissant pour les charges de travail importantes, ainsi que des outils de data warehousing faciles à utiliser. Azure est très utile pour capturer des datasets très volumineux et sa conception le rend supérieur à toute autre plateforme pour la protection des données.

· Google Cloud

Google Cloud est idéal pour les développeurs et les entreprises. Il offre performances, durabilité et fiabilité pour un large éventail de besoins de stockage d'objets unifiés. Google Cloud s'intègre également bien aux autres produits Google. Les quatre classes de stockage de la plateforme permettent d'optimiser les prix et les performances. En outre, les utilisateurs bénéficient d'un accès instantané aux données de toutes les classes et ont l'assurance que les données de l'entreprise ne seront jamais perdues. En revanche, l'interface utilisateur peut être déroutante à la navigation.

  • Snowflake

Snowflake est une solution de data warehousing attrayante à un tarif raisonnable. Elle est réputée pour sa vitesse et son architecture multi-clusters. Snowflake est compatible avec de nombreux formats de données connus, tels qu'Avro, JSON, Parquet, XML et ORC. L'architecture de Snowflake est conçue pour tirer parti des avantages du cloud : elle utilise le langage de requête SQL standard, tout comme la plupart des entreprises, de sorte qu'il n'est pas nécessaire de former à nouveau les équipes. La navigation est aisée. Lorsque la demande est élevée, l'évolutivité instantanée des data warehouses parvient à contourner les goulets d'étranglement des informations. En revanche, Snowflake n'est pas une solution que vous pouvez exécuter dans votre propre data center ou dans un cloud privé virtuel (VPC).

  • Cloudera

Cloudera est une plateforme de gestion de stockage Hadoop très stable et polyvalente. Elle est conçue pour combiner en mode natif le stockage, le traitement et l'exploration. Ses capacités analytiques basées sur Hadoop vous permettent également d'exploiter pleinement vos données. Cloudera est facile à déployer, conviviale et idéale pour gérer et analyser de grandes quantités de données analytiques. Malheureusement, l'utilisation de certaines des fonctionnalités les plus avancées de Cloudera à pleine capacité requiert une expérience approfondie de gestion des données. En outre, elle présente également des performances de plateforme plus lentes que celles de ses concurrents.

Sauvegarde et continuité d’activité

Il est impératif d’effectuer des sauvegardes régulières pour limiter l’impact d’une éventuelle disparition des données. Des copies de sauvegarde doivent être réalisées et testées régulièrement. Un plan de continuité ou de reprise d’activité (PRA) anticipant les éventuels incidents, comme une panne matérielle, doit être préparé et joué régulièrement pour en valider l’exhaustivité.

· Quelques bonnes pratiques en matière de sauvegarde :

  • Prévoir des sauvegardes incrémentales quotidiennes et des sauvegardes complètes à intervalles réguliers.
  • Prévoir le réimport des données à intervalle régulier pour confirmer l’exhaustivité des sauvegardes incrémentales et complètes.
  • Stocker les sauvegardes sur un site extérieur, si possible dans des coffres ignifugés et étanches.
  • Protéger les données sauvegardées au même niveau de sécurité que celles stockées sur les serveurs d’exploitation. Par exemple en chiffrant les sauvegardes, en prévoyant un stockage dans un lieu sécurisé ou en encadrant contractuellement une prestation d’externalisation des sauvegardes.
  • Chiffrer le canal de transmission, si celui-ci n’est pas interne à l’organisme, lorsque les sauvegardes sont transmises par le réseau.

· Quelques bonnes pratiques pour assurer une continuité d’activité :

  • Rédiger un plan de reprise et de continuité d’activité informatique même sommaire, incluant la liste des acteurs avec la liste des actions de chacun et les délais d’intervention
  • S’assurer que les utilisateurs, prestataires et sous-traitants savent qui alerter en cas d’incidents
  • Tester régulièrement la restauration des sauvegardes et l’application du plan de continuité ou de reprise de l’activité
  • Utiliser un onduleur pour protéger le matériel servant aux traitements essentiels ; prévoir une redondance matérielle des matériels de stockage, par exemple au moyen d’une technologie RAID.

Restauration des données :

La sauvegarde a pour but de créer une copie des données à des fins de restauration en cas d'échec des données primaires. Ces échecs peuvent avoir diverses causes : défaillance matérielle ou logicielle, corruption des données, événement d'origine humaine (par exemple, attaque par un virus ou un programme malveillant) ou suppression accidentelle de données. Les copies de sauvegarde permettent de restaurer les données à un point antérieur afin que les entreprises puissent les récupérer à la suite d'un événement imprévu.

La restauration à partir d'une sauvegarde implique généralement la restauration des données dans leur emplacement d'origine ou dans un autre emplacement, où elles peuvent être utilisées à la place des données perdues ou endommagées.

En conclusion

Dans un cadre fortement contraint, les conditions de stockage et de sécurisation dépendent aussi des besoins et des applicatifs des entreprises. Les données évoluent dans un écosystème vaste et complexe : pour atteindre leurs objectifs et exprimer leur plein potentiel, elles doivent être exhaustives, fiables et réutilisables. Vous l’aurez compris, l’étape (en réalité, les étapes) de stockage joue un rôle primordial dans la conservation de données qualitatives et exploitables en vue des phases de traitement, d’analyse, de partage et de réutilisation. L’étape à venir de traitement promet d’être intéressante !

Notre newsletter

Une newsletter trimestrielle conçue rien que pour vous par nos IT-NewVisionners !

Message