Intégration de données/Les principales approches d'intégration de données
Quelles sont les principales approches d’intégration et quels sont leurs avantages et inconvénients ?
[modifier | modifier le wikicode]Extract, Transform and Load (ETL)
[modifier | modifier le wikicode]L’ETL permet la consolidation des données à l’aide des trois opérations suivantes :
Extraction : Identifier et extraire les données de sources ayant subi une modification depuis la dernière exécution
Transformation : Appliquer diverses transformations aux données pour les nettoyer, les intégrer et les agréger
Chargement : Insérer les données transformées dans l’entrepôt et gérer les changements aux données existantes (Ex : Stratégies SCD)
Il traite normalement de grandes quantités de données en lots et est surtout utilisé avec les entrepôts de données et les comptoirs de données.
Avantages
[modifier | modifier le wikicode]- Optimiser pour la structure de l’entrepôt de données
- Pouvoir traiter de grandes quantités de données dans une même exécution (traitement en lot)
- Permettre des transformations complexes et agrégations sur les données
- Être contrôlée par l’administrateur
- Permettre la réutilisation des processus et transformations (ex : Package dans SSIS)
Inconvénients
[modifier | modifier le wikicode]- Processus de développement long et coûteux
- Gestion des changements nécessaire
- Exigence de l’espace disque pour effectuer les transformations (Staging area)
- Exécution indépendamment du besoin réel
- Latence des données entre la source et l’entrepôt
- Unidirectionnel (des sources vers l’entrepôt de données)
Entreprise information Intégration (EII)
[modifier | modifier le wikicode]L’EII fournit une vue unifiée des données de l’entreprise où les sources de données forment une fédération. Les sources de données dispersées sont consolidées à l’aide d’une BD virtuelle, de manière transparente aux applications utilisant ces données. Toute requête à la BD virtuelle est décomposée en sous-requête aux sources respectives, dont les réponses sont assemblées en un résultat unifié et consolidé. Il permet aussi de consolider uniquement les données utilisées, au moment où elles sont utilisées (Source Data Pulling). Le traitement en ligne des données peut cependant entraîner des délais importants.
Avantages
[modifier | modifier le wikicode]- Avoir un accès relationnel à des sources non-relationnelles
- Permettre d’explorer les données avec la création du modèle de l’entrepôt de données
- Accélèrer le déploiement de la solution
- Pouvoir être réutilisé par le système ETL dans une itération future
Inconvénients
[modifier | modifier le wikicode]- Requiert la correspondance des clés d’une source à l’autre
- Consolidation des données plus complexe que dans l’ETL
- Surtaxe les systèmes sources
- Plus limité que l’ETL dans la quantité de données pouvant être traitée
- Transformations limitées sur les données
- Consommation d'une grande bande passante du réseau
Entreprise Application intégration (EAI)
[modifier | modifier le wikicode]L’EAI est une approche permettant de fournir à l’entrepôt de données des sources (Data pushing). Il repose sur l’intégration et le partage des fonctionnalités des applications sources à l’aide d’une architecture SOA. De plus, il est généralement utilisé en temps réel ou semi-réel (Near Real Time). L’EAI ne remplace pas le processus ETL mais permet de simplifier ce dernier.
Avantages
[modifier | modifier le wikicode]- Faciliter l’interopérabilité des applications
- Permettre l’accès en quasi temps réel
- Ne transfèrer que les données nécessaires
- Contrôler le flot d’information
Inconvénients
[modifier | modifier le wikicode]- Support limité aux transformations et agrégations des données
- Taille des transactions limitée (en nombre de lignes)
- Développement complexe
- Gestion complexe de l’intégrité sémantique des données
- Utilisation de la bande passante du réseau durant les heures de pointe
Quand utiliser les approches d’intégrations ?
[modifier | modifier le wikicode]Pour ETL
- Consolidation d’une grande quantité de données
- Transformations complexes
Pour EII
- Relier un entrepôt (EDW) existant avec des données de sources spécifiques
- Données sources volatiles et accessibles à l’aide de requêtes simples (EX :SQL)
Pour EAI
- Intégration de transactions
- Requêtes analytiques simples
- Sources non-accessibles directement
Synthèse entre les différentes méthodes d'intégration
[modifier | modifier le wikicode]Exemples de produits commerciaux
[modifier | modifier le wikicode]Outils ETL
- Oracle Warehouse Builder
- Microsoft SQL Server Intégration Services (SSIS)
- SAS Data Intégration Studio
Outils EII
- SAP BusinessObjects Data Federator
- IBM WebSphere Federation Server
Outils EAI
- IBM WebSphere Message Broker
- Oracle SOA Suite
- DEX - Data Exchanger (TENOR EDI SERVICES)
-
Oracle Logo
-
SAP Logo
-
Microsoft Access
-
Talend Logo