Pentaho/Intégration de données
« L'intégration de données est un outil capable d'extraire les données dans différentes sources (MySQL, XML, ...), de les adapter et de les charger dans un entrepôt de données. » Pentaho.
Définition
[modifier | modifier le wikicode]L'intégration de données appelé ETL (Extraction Transfer Loading) regroupe les processus par lesquels les données provenant de différentes parties du système d'information sont déplacées, combinées et consolidées. Ces processus consistent habituellement à extraire des données de différentes sources (bases de données, fichiers, applications, Services Web, emails, etc.), à leur appliquer des transformations (jointures, lookups, déduplication, calculs, etc.), et à envoyer les données résultantes vers les systèmes cibles.
Il existe plusieurs systèmes d'intégration de données :
- La médiation au service de l’intégration de données d’entreprise (EII).
- L’intégration de données via les applications (EAI).
- L’intégration de données via les services Web (ESB, SOA).
- L’intégration de données en nuage (Data Cloud).
Objectifs
[modifier | modifier le wikicode]Les principaux objectifs de l'intégration de données sont les suivants :
- Un accès aux requêtes, éventuellement aux mises-à-jour.
- Utilisation des données comme si elles constituaient une seule base de données homogène.
- Diffusion des données rapidement, simplement, efficacement et économiquement.
- Fournir les données appropriées aux bonnes personnes.
- Combinaison de toutes données nécessaires à la veille économique.
- Accélération de la conception, du développement, de la livraison et de la gestion des flux de données.
Utilisation en entreprise de l'intégration de données Pentaho
[modifier | modifier le wikicode]Le PDI (Pentaho Data Integration), anciennement connu sous le nom de Kettle, est un logiciel d’ETL (Extract, Transform, Load) Open Source qui permet la conception ainsi que l’exécution des opérations de manipulation et de transformation de données très complexes.
Son objectif est de récupérer diverses sources dans différents formats, de les traiter, les transformer, et établir un résultat puis finalement exporter dans le format souhaité vers une destination souhaitée. De plus l'intégration de données de Pentaho est ouverte; elle repose sur une architecture normalisée et est ajustable à n’importe quel environnement ou solution de BI.
L'outil Pentaho Data Integration offre des fonctionnalités de préparation des données :
- L'extraction,
- La transformation,
- le chargement des données.
Data integration est avant tout, un environnement de conception graphique complet et intuitif qui facilite l'écriture de scripts spécialisés et le codage pour la préparation des données.
Cet outil Pentaho comprend :
- Une connectivité pour tout type de données, y compris les vastes volumes de données, des bases de données Excel à MySQL, et pour toutes les distributions Hadoop basées sur Apache.
- Un profilage et une qualité des données dont le nettoyage des données concernant le nom, l’adresse, le téléphone et l’e-mail.
- Un traitement parallèle multi-tâches de haute performance et un clustering MPP.
- Une visualisation et une modélisation dimensionnelle, intégrées permettant une intégration de données et une analyse d'entreprise itératives.
Les avantages de PDI sont les suivants:
- Pentaho Data Integration est gratuit et Open Source
- Un large appui de point d'émission de données
- Réutilisation facile des questions et des composants de transformation avec les modèles (c'est dernières étant sauvegardées)
- Exécution groupée des transformations d'ETL
- Complètement intégré avec la suite open source de Pentaho
- Totalement basé sur du Java (des scripts personnalisés sous forme de script java)
- Une architecture extensible
Plus à savoir: Le PDI de Pentaho sera plutôt utilisé par les PME/PMI étant donné qu’il est gratuit. Il est performant en ce qui concerne la migration de données d'une base à une autre. Cela peut être utile lors de renouvellement du parc informatique de la société. Enfin il sert bien évidemment à alimenter un datawarehouse et des datamarts. Vous vous demander ce qu'est un datamart?
Le datamart est équivalent au datawarehouse, cependant il stocke des données spécifiques à certaines communautés d’utilisateurs, et aide à la décision pour les utilisateurs ( les différents services représentés par les ordinateurs: RH. Gestion finance; marketing...)de fin de chaîne. Pour cela, il faut donc présenter les données telles que l’utilisateur a l’habitude de manipuler dans son métier quotidien.
Cela dit, le datamarting ne s’adresse qu’aux besoins d’aide à la décision des petites entreprises avec peu d’utilisateurs métiers, un seul marché et peu de lignes de production. Intrinsèquement, le datamarting ne peut pas répondre au marché des entreprises d’échelle internationale qui comportent plusieurs communautés d’utilisateurs métiers distinctes, plusieurs produits et qui subissent une constante réorganisation pour réagir aux conditions du marché.