waves
ARTICLE

Le traitement des données

Nous l’avons vu dans notre article d’introduction aux données fines, une bonne gestion de la data peut conduire à en faire un levier de développement déterminant pour votre entreprise (meilleure rentabilité financière, gain en affinité de marque auprès des consommateurs…)

L’amélioration de l’efficacité énergétique passe également par le Big Data : les données offrent la possibilité de piloter intelligemment la consommation d’énergie et offrent une flexibilité qui satisfait aux besoins des énergies renouvelables d’être toujours plus intégrées au mix électrique (cf. notre article « La donnée collectée, levier de croissance pour tous les acteurs du marché de l’énergie »).

Il est nécessaire, pour exploiter le plein potentiel des données énergétiques, de soigner chaque étape de leur cycle de vie : nous avons abordé la collecte et le stockage, voyons aujourd’hui comment optimiser l’étape décisive et complexe du traitement des données.

Le traitement des données

Dans le cycle de vie des données, l’étape du traitement conditionne la teneur, la qualité, la pertinence de celles qui seront exploitées et permettront ainsi d’atteindre les objectifs préalablement définis par les entreprises « collectrices ».

Le traitement des données est exécuté dès que celles-ci sont collectées, en vue de les traduire en information exploitable pour la phase d’analyse. Il commence avec les données brutes : il les convertit sous une forme plus lisible en leur donnant le format et contexte nécessaires pour qu'elles puissent être interprétées par les systèmes IT et utilisées par les employés à l'échelle de l'entreprise.

Ce processus de traitement, une fois programmé, est le plus souvent automatisé et couvre une large gamme d’opérations pouvant aller de la simple compression, au nettoyage, à l’extraction, la transformation, la structuration, l’adaptation…Il s’agit de vérifier, nettoyer, valider les données afin de faciliter l'exécution d'algorithmes.

Rappel des règles encadrant le traitement des données :

La loi informatique et libertés a défini les principes à respecter lors du traitement des données personnelles. Pour en assurer la bonne application au sein des entreprises, un responsable de traitement a la charge de la gestion globale de l’application du RGPD et garantit :

La licéité, la loyauté et la transparence

· La licéité du traitement des données fait référence à son fondement juridique (obligation légale, obligation contractuelle etc.)

· La loyauté désigne les modalités selon lesquelles les données sont collectées ; ce principe fait référence au droit à l’information des individus

· La transparence exige que toute information et communication relatives au traitement de ces données à caractère personnel soient aisément accessibles, faciles à comprendre, et formulées en des termes clairs et simples.

Les fournisseurs doivent informer leurs clients et prospects de leur Politique de protection de leurs données personnelles :

· Quelles données sont collectées

  • A quelles occasions

· Qui sont les destinataires de ces données

· Combien de temps sont-elles conservées

· Leurs engagements de sécurité et de confidentialité

· Comment les clients et prospects peuvent exercer leurs droits

La finalité

Avant toute collecte et utilisation de données personnelles, le responsable de traitement doit précisément annoncer aux personnes concernées les objectifs de la collecte des données.

La pertinence ou le principe de minimisation

Les données traitées doivent être pertinentes, adéquates et limitées aux seuls objectifs définis préalablement.

La limitation de la conservation des données

Les données doivent être conservées pendant une durée « n’excédant pas celle nécessaire au regard des finalités pour lesquelles elles sont traitées”.

Le respect des droits des personnes

Au-delà du droit à l’information indiqué plus haut, les personnes dont les données personnelles sont collectées disposent également d’un droit d’accéder à ces données, de les rectifier ou de s’opposer à leur utilisation.

La sécurité des données personnelles

Le responsable de traitement doit garantir la sécurité et la confidentialité des données collectées : seules les personnes autorisées y accèdent.

Les six étapes du traitement des données

1. Collecte des données collectées !

L’ensemble des données collectées et stockées est importé : il est important que les sources de données disponibles soient correctement structurées pour que les données importées et utilisées par la suite sous forme d'information ou de connaissance soient de la meilleure qualité possible.

2. Préparation des données

Après la collecte des données suit leur préparation. Parfois appelée « pré-traitement », cette étape est celle durant laquelle les données brutes sont nettoyées et structurées en vue de l'étape suivante du traitement. Lorsque les données ont quitté leur source, les erreurs deviennent plus difficiles à détecter, comprendre et corriger. L'objectif est d'éliminer les données de mauvaise qualité (redondantes, incomplètes ou incorrectes) et de commencer à créer des données de haute qualité pouvant garantir la qualité de votre environnement de Business Intelligence.

76 % des data scientistes reconnaissent que la préparation des données est la partie la plus fastidieuse de leur travail, mais aussi que les décisions efficaces et précises ne peuvent être prises qu'avec des données « propres ».

Le processus de préparation des données comprend généralement les étapes suivantes :

1. Collecter les données « utiles »

Le processus de préparation des données commence par la recherche des données les plus utiles.

2. Découvrir et évaluer les données

Lorsque les données ont été collectées, il est important de découvrir les différents datasets. Cette étape permet de mieux connaître les données, d’évaluer leur qualité et de déterminer le traitement à leur appliquer avant qu'elles deviennent exploitables dans un contexte particulier.

3. Nettoyer et valider les données

Corriger les problèmes de qualité en bout de chaîne est 10 fois plus coûteux que de procéder à un nettoyage à leur point d’entrée. En général, le nettoyage des données est l'étape la plus longue du processus de préparation des données, mais cette opération est cruciale pour éliminer les données erronées et combler d'éventuelles lacunes. Lors du nettoyage, les tâches importantes sont notamment les suivantes :

· Supprimer les données superflues et les valeurs aberrantes

· Ajouter les valeurs manquantes

· Adapter les données à une structure standard

· Masquer les données privées ou sensibles

Lorsqu’elles ont été nettoyées, elles doivent être validées : il s’agit notamment de savoir si des erreurs se sont produites dans le processus de préparation (il peut arriver qu'une erreur apparaisse pendant cette étape, et il est alors nécessaire de la corriger avant de poursuivre).

4. Transformer et enrichir les données

Transformer les données consiste à mettre à jour les entrées de format ou de valeur, à les standardiser, de manière à obtenir un résultat clairement défini ou à rendre les données plus faciles à comprendre par un plus grand nombre d'employés.

Enrichir les données consiste à ajouter des données et à les relier à des données apparentées de manière à dégager des connaissances approfondies.

5. Stocker les données préparées

Lorsque la préparation des données est terminée, celles-ci peuvent être stockées ou routées vers une application tierce – par exemple, un outil de Business Intelligence (Business Object, Power cloud…) – avant leur traitement et analyse.

3. Importation des données

Les données propres sont ensuite importées dans leur emplacement de destination (par exemple, un système CRM tel que Salesforce, un portail consommation tel que Sitecare d’Opinum…), et converties vers un format supporté par cette destination. L'importation des données est la première étape au cours de laquelle les données brutes commencent à se transformer en informations exploitables.

4. Le traitement des données

Les données importées dans le système sont traitées pour interprétation. Le traitement s'effectue par exécution d'algorithmes de machine learning. Toutefois, le processus peut varier légèrement selon l’emploi prévu de ces données (analyse de modèles de consommation, diagnostic énergétique à partir d'équipements connectés, détermination des besoins des clients, etc.).

5. Sortie et interprétation des données

Lors de l'étape de sortie/interprétation, les données sont converties et deviennent exploitables.

6. Deuxième étape, le stockage des données

La dernière étape du traitement des données est le stockage. Une fois les données traitées, elles sont stockées pour analyse. Comme vu plus haut, les données doivent être stockées de manière à répondre aux exigences réglementaires en matière de protection des données.

Le choix des données à conserver :

Les préoccupations environnementales, auxquelles s’ajoutent les normes RGPD, stipulant, notamment dans les articles 5 et 6, que « l’ensemble des Traitements de Données à caractère personnel engage les fournisseurs d’énergie à collecter des données pour des finalités déterminées, explicites et légitimes », imposent de ne conserver que les données strictement nécessaires. Il s’agit ici de poser le cadre des données que l'on va sauvegarder pour être en conformité avec toutes les composantes gravitant autour :

- RGPD,

- Partenaires,

- Abonnés...

-respecter les normes RGPD

Les données sont à conserver de manière adéquate, pertinente et sont limitées à ce qui est nécessaire au regard des finalités pour lesquelles elles sont traitées (principe de minimisation des données).

-fixer les objectifs et les catégories de données à stocker

La finalité permet de déterminer la pertinence des données personnelles que vous conservez : vous devez définir l’objectif poursuivi par la mise en place de votre fichier. Cet objectif doit être compatible avec les missions de l’organisme, il doit être clair, compréhensible et explicité.

La finalité permet également de fixer la durée de conservation des données. En fonction du but poursuivi, les informations enregistrées dans le fichier pourront être conservées plus ou moins longtemps.

-conserver uniquement les données qualitatives :

La qualité des données peut être dégradée à deux niveaux : au niveau de la description des données (conflits entre noms d’objets, imprécisions sur la définition des objets...) et au niveau de la donnée en elle-même (valeurs nulles, doublons, valeurs anormales, données obsolètes…). Il existe cinq critères pour évaluer la qualité des données :

1. L’exhaustivité : les données sont-elles vraiment complètes pour l'usage auquel elles sont destinées ?

2. L’exactitude : les données sont-elles correctes (informations manquantes, incomplètes, chiffres faux…), fiables et/ou certifiées par une instance de gouvernance ?

3. La fraicheur : les données utilisées sont-elles les plus récentes ? Sont-elles suffisamment récentes pour l’usage souhaité ?

4. La cohérence : les données présentent-elles un format cohérent dans tout le dataset ? Restent-elles identiques dans toutes les mises à jour et versions ? Sont-elles cohérentes avec les autres datasets pour permettre des assemblages ou des enrichissements ?

5. L’accessibilité : les données sont-elles accessibles facilement aux collaborateurs qui en ont besoin ?

L'avenir du traitement des données

L'avenir du traitement des données est dans le cloud. La technologie cloud s'appuie sur les méthodes actuelles de traitement des données, améliore leurs performances et augmente leur efficacité. Avec des données de meilleure qualité et accessibles plus rapidement, chaque entreprise peut traiter de plus gros volumes et en extraire des connaissances précieuses.

En migrant leur big data vers le cloud, les entreprises bénéficient d'avantages considérables.

Les technologies big data en cloud permettent aux entreprises d'agréger leurs différentes plateformes en un seul système facilement adaptable. Chaque fois qu'un logiciel ou une application est modifié ou mis à jour (comme c'est souvent le cas dans l'univers des big data), la technologie cloud intègre automatiquement les nouveautés dans l'ancienne version.

Le traitement des données en cloud n'est en fait absolument pas réservé aux grands acteurs du secteur de l’énergie : les PME/TPE peuvent également en retirer d’importants avantages. Les plateformes cloud sont souvent peu coûteuses et offrent la flexibilité nécessaire pour compléter et étendre les capacités de la solution au rythme de la croissance de l'entreprise. Et elles donnent aux entreprises la possibilité d'évoluer sans avoir à consentir d'investissements excessifs.

Conclusion :

Le big data modifie les pratiques des entreprises de toute taille. Il est maintenant impossible de s’en passer. Les avantages concurrentiels qui lui sont associés exigent une stratégie de traitement des données structurée et maitrisée. Cet accompagnement nécessaire peut se fait en plusieurs phases et avec plusieurs intervenants :

· Accompagnement à l’expression de besoin

· Accompagnement aux choix des applications

· Aide à la formalisation applicative des données

· Aide dans la définition des tableaux de bord de suivi et KPI.

Il existe sur le marché un grand nombre d’applications sur étagère et « onsite » ou alors sur le cloud.

Le cloud a bénéficié d'avancées technologiques considérables et propose dès à présent les méthodes les plus avancées, les plus performantes et les moins coûteuses pour ces opérations. Mais comme indiqué précédemment, l’applicatif et les données ne font pas tout, il faut les exploiter à bon escient pour en extraire le maximum d’informations pour atteindre sa cible. D’où le fait d’un accompagnement à l’ensemble des phases de ce projet d’exploitation des données.

Pour rester concurrentiel et toujours avoir un temps d’avance sur vos concurrents, il est maintenant temps de mettre vos données au service de vos activités et de votre stratégie : une fois traitée, les données peuvent être analysées efficacement dans un contexte de Business Intelligence. Grâce à un environnement d'analyse des données efficace, vous pourrez prendre des décisions plus rapides et plus avisées et surtout mieux piloter votre activité.

Nos experts et consultants, ainsi que les liens que nous avons avec nos partenaires peuvent vous aider dans toutes les phases d’analyse, de mise en œuvre et réalisation de vos projets d’exploitation des données.

Notre newsletter

Une newsletter trimestrielle conçue rien que pour vous par nos IT-NewVisionners !

Message