Intégration de données/Consolidation
Principe
[modifier | modifier le wikicode]La consolidation de données permet de rassembler des données provenant de différentes sources. Cette consolidation peut s'effectuer avant l'intégration dans l'entrepôt de données par le biais d'intégrateurs comme l'ETL. On peut cependant avoir besoin de faire une consolidation avec l’extraction des différentes données que nous allons avoir dans l’entrepôt de données et d'autres sources de données hors système (Pour exemple, Excel) et ainsi faciliter l'analyse qui va en découler. On peut, par exemple, citer les reportings et les tableaux de bord à alimenter comme aide à la décision.
Quelle méthodologie avoir pour effectuer la consolidation de données?
[modifier | modifier le wikicode]Pour effectuer une consolidation de données, il faut se poser les bonnes questions.
Pour établir une consolidation des différentes données, il faut :
- Identifier les sources de données et leurs structures
- Décider, pour chaque source, si l'extraction est faite à la main (Ex : Script) ou à l'aide d'un outil (Base de données)
- Déterminer la façon de gérer les exceptions
Quelles sont les transformations à effectuer sur les données sources?
[modifier | modifier le wikicode]Pour permettre une consolidation de données, on doit retravailler les données sources pour pouvoir analyser l'ensemble et avoir une correspondance.
On peut citer, pour une consolidation de données :
- Révision de format
Exemple : Mettre les données au même format dans une feuille Excel afin de pouvoir utiliser des formules
- Décodage de champs
-Consolider les données de sources multiples Exemple : ["Ouvriers", "Cadres"] vs ["O";"C"] vs [1;2]
-Traduire les valeurs cryptyques Exemple : "Y","N" pour les réponses yes et no
- Pré-calcul des valeurs dérivées
Exemple : Résultat dégagé du chiffres d'affaire et des dépenses
- Découpage des champs complexes
Exemple : Extraire l'immatricule et le nom de famille d'un individu d'une seule chaîne de caractère "RéférenceSalarié"
- Fusion de plusieurs champs
Exemple : Faire une valeur référence unique comme la référence d'un chantier avec le nom du chantier, le lieu et le conducteur de travaux.
- Conversion des unités de mesue
Exemple : Impérial à métrique
- Conversion des dates
Exemple : "01/01/20017" vs "01 janv 2017"
- Pré-calcul des agrégations
Exemple : Profit dégagé des ventes et des coûts associés par ville
Quelles sont les problèmes rencontrés?
[modifier | modifier le wikicode]On peut distinguer deux problèmes à la consolidation de données : Les problèmes de résolution d'entités et les problèmes de sources multiples.
Les problèmes de résolutions d'entités
[modifier | modifier le wikicode]Ils surviennent lorsqu'une seule et même entité se trouve sur des sources différentes sans qu'on ait la correspondance entre celles-ci.
Exemple : Fournisseurs ayant un identifiant différent sur les différentes sources
La consolidation de données va avoir son importance pour retrouver la correspondance exacte. Les approches basées sur des règles de résolutions.
Exemple : Les entités doivent avoir au moins N champs identiques
Les problèmes de sources multiples
[modifier | modifier le wikicode]Ils surviennent lorsqu'une entité possède une représentation différente sur plusieurs sources. il faut avoir des approches de sélection :
- Choisir la source la plus approprié
- Choisir la source ayant l'information la plus récente
Méthode de consolidation sur Excel
[modifier | modifier le wikicode]Les différentes données seront consolidées sur une feuille de calcul dite « maître ». Cette dernière peut se trouver dans le même classeur que les différentes feuilles de données ou dans un classeur Excel différent.
Exemple : Vous avez des coûts répartis dans plusieurs départements/services/thèmes…Ces données peuvent se trouver dans le même classeur (ex : un département/service/thème par onglet) ou bien encore se trouver sur différents classeurs Excel (ex : un classeur pour chaque département/service/thème)
Vous allez donc rassembler ces données (peut importe l'endroit auquel elles se trouvent) dans la feuille de calcul « maître » de dépenses de la société/association…etc. Cette feuille peut également contenir d'autres données telles que le total des ventes en moyenne, le niveau des stocks...
Il existe deux méthodes de consolidation sur Excel :
Par position
[modifier | modifier le wikicode]Lorsque des données provenant des différentes feuilles et/ou classeur sont disposées de la même manière et possèdent les mêmes libellés de ligne et/ou colonnes.
Méthode :
Il faut créer un nouvel onglet
Cliquer sur une cellule
Aller dans Données
Consolider
Sélectionner dans « références » les différents tableaux de données
Cocher "ligne du haut" et "colonne de gauche" si on veut faire apparaître les libellés de lignes/colonnes
Par catégorie
[modifier | modifier le wikicode]Lorsque les données provenant des différentes feuilles ne sont pas disposées de la même manière mais qu’elles possèdent les mêmes libellés de ligne et/ou colonnes. Cette méthode est similaire à la création d’un tableau croisé dynamique mais les catégories sont moins faciles à organiser que sur ce dernier.
Méthode :
Il faut créer un nouvel onglet
Cliquer sur une cellule Aller dans Données
Consolider
Sélectionner dans « références » : Les tableaux de chaque onglet
Cocher "ligne du haut" et "colonne de gauche" pour permettre à Excel de calculer et restituer les données selon le bon intitulé
Exemple 1 – Consolidation par catégorie
[modifier | modifier le wikicode]Pour rappel, la consolidation par catégorie concerne les fichiers dont les étiquettes de lignes et de colonnes ne sont pas identiques ou sont disposées différemment.
Voici les différentes plages de données contenues dans le même classeur mais sur des onglets différents. Il s’agit du détail des ventes dans différents pays par trimestre, il y a un onglet par trimestre.
On peut clairement voir ici que les étiquettes de lignes et de colonnes ne sont pas identiques puisqu’elles ne sont pas dans le même ordre.
Suite à cela, on crée un nouvel onglet sur lequel figurera le tableau de consolidation.
On sélectionne simplement la cellule A1.
On va ensuite dans « Données » puis on clique sur « Consolider ». À partir de là on obtient toujours cette fenêtre :
Ici nous voulons toujours la somme qui est la valeur par défaut.
Encore une fois nous rajoutons les références (qui sont les 4 tableaux de ventes par trimestre).
Nous cochons toutes les étiquettes. En effet comme les différents tableaux ne présentent pas les mêmes données aux mêmes endroits et dans la même position (colonne et ligne) il faut absolument cocher « ligne du haut » et « colonne de gauche ». Ceci aura pour effet de demander à Excel de trouver lui-même les étiquettes et d'y additionner les bons chiffres.
On obtient donc ceci :
Si on veut voir le détail des données prises en considération dans la somme des valeurs, on clique toujours sur les petits « + » à gauche du tableau.
Grâce à cela on peut voir qu’Excel à bien automatiquement additionné les bons chiffres en fonction du pays et du détail des ventes.