Talend/Big Data Solutions

**Big Data Solutions**
Leçon : Talend

Chapitre n^o 2
Chap. préc. :	Généralités sur Talend
Chap. suiv. :	L'intégration de données

En raison de limitations techniques, la typographie souhaitable du titre, « Talend : Big Data Solutions
Talend/Big Data Solutions », n'a pu être restituée correctement ci-dessus.

Problématique

« Quelle utilisation devons-nous faire des données, petites et grandes et comment vais-je être le meilleur dans l’utilisation des données, afin d’aider mon entreprise ? »

Big Data Solutions

Le "Big" Data ?

Comme l’expression l’indique, le Big Data se caractérise par la taille ou la volumétrie des informations. Mais d’autres attributs, notamment la vitesse et le type de données, sont aussi à considérer. En ce qui concerne le type, le Big Data est souvent rattaché à du contenu non structuré ou semi-structuré, ce qui peut représenter un défi pour les environnements classiques de stockage relationnel et de calcul. Les données non structurées et semi-structurées sont partout : contenu web, posts twitter ou posts clients. Par vitesse on entend la rapidité avec laquelle les informations sont créées. Grâce à ces nouvelles technologies, il est maintenant possible d’analyser et d’utiliser l’importante masse de données fournie par les fichiers en provenance des sites web, l’analyse d’opinions des réseaux sociaux, et même les vidéos en streaming et les capteurs environnementaux.

Les produits d’intégration de données de Talend permettent d’accéder, de transformer et d’intégrer des données de tout système en temps réel ou par groupe afin de répondre aux besoins d’intégration de données opérationnelles et analytiques. Avec plus de 800 composants, Talend intègre presque toutes les sources possibles de données.

Objectifs

Les objectifs Big data de Talend se déclinent en 4V :

Volume : Le volume décrit la quantité de données générées par des entreprises ou des personnes.

Avec l'arrivée d'internet et des réseaux sociaux la quantité de données numériques produites dans le monde a explosé. Les entreprises, tous secteurs d’activité confondus, doivent aujourd’hui trouver des moyens pour gérer un volume de données en constante augmentation. On parle aujourd’hui couramment de Pétaoctets (1 000 Téraoctets).

Variété : Ces données ont pour caractéristiques outre le fait d’être volumineuses d’être non structurées ou de formats très variables, contrairement aux données qui jusqu’à présent étaient formatées dans des bases de données classiques. Ainsi, médias sociaux, vidéo, contenu sémantique, logs internet, données de géolocalisation... sont autant de sources de données lourdes qui ne présentent pas de "format type".
Vitesse : Besoin de traiter en temps réel des flux considérables qu’il devient impossible de stocker
Visualisation : Simplifier et rendre accessible toute cette quantité d'information

Utilisation en entreprise du Big data Talend

Talend offre deux solutions d’intégration Big Data pour répondre à tous les besoins : Talend Open Studio for Big Data, outil de développement Open source gratuit, et Talend Platform for Big Data, avec des fonctions incluses de qualité de données, de déploiement avancé et de gestion.

Talend Open Studio for Big Data

Le Big Data bouleverse les entreprises traditionnelles au niveau de la technologie pour passer à des entreprises modernes. Les entreprises capturent des trillions d’octets d’informations concernant leurs clients, leurs fournisseurs, les opérations d’entreprise. Des millions de réseaux de capteurs dans des appareils, tels que les téléphones portables, les compteurs d’énergie et les automobiles sentent les données, les créent et les communiquent. Une entreprise se tourne de plus en plus dans la collecte des enregistrements des détails des appels, des logs internet, des données des réseaux de capteurs, des transactions financières, des médias sociaux et des textes internet, pour pouvoir les analyser par rapport aux sources de données existantes. En collectant et analysant ces données, les entreprises ont une meilleure vision des nouvelles opportunités et des menaces du marché.

Talend offre un environnement simple et intuitif qui permet aux développeurs d’établir des correspondances visuellement des sources Big Data avec des données volumineuses, sans avoir besoin d’écrire du code complexe. Une fois la connexion Big Data configurée, le code est automatiquement généré et déployé.

Le projet Big data de Talend va au delà de plusieurs obstacles, notamment liés à la technologie, au personnel et aux processus de qualité.

Technologie : La réussite d’un projet Big Data nécessite l’acquisition, l’intégration et la gestion de plusieurs technologies Big Data, comme Hadoop, MapReduce, les bases de données NoSQL, Pig, Scoop, Hive, Oozie, etc. L'intégration d'ensembles de données volumineux et structurés différemment ou non structurés peut rapidement devenir un obstacle difficile à maintenir et à gérer. Les outils traditionnels de gestion de données échouent lors de tentatives d’intégration, de recherche et d’analyse d’ensembles de données volumineux, allant (pour le moment) de quelques téraoctets à de nombreux pétaoctets d’informations.
Personnel : Comme pour toute nouvelle technologie, les équipes doivent être formées aux technologies Big Data afin d’obtenir les compétences nécessaire à sa bonne utilisation au sein de l'entreprise. Une récente étude de Talend, « Où en est l’Adoption du Big Data ? », permet de voir que les deux plus grands défis de l’implémentation du Big Data sont de trouver l’expertise interne, ainsi que d’allouer suffisamment de budget, de temps et de ressources.
Processus de qualité : Cette même étude permet également de constater que la plupart des projets Big Data n’ont pas de gouvernance de données et manquent de procédures de qualité lors du traitement d’ensembles de données non structurées.

Talend Platform for Big Data

₪ Plateforme de chargement : Le chargement des Big Data (de fichiers de log, de systèmes opérationnels, médias sociaux, capteurs ou autres sources) dans une plateforme Big Data, comme Apache Hadoop, Google Cloud Platform, Netezza, Teradata ou Vertica devient une opération simplifié grâce à l'apport des composants Big Data fournis par Talend. Une palette complette de composants Talend d’intégration de données (applications, bases de données, services) est disponible pour diriger les transactions des données de n’importe quelle source ou vers n’importe quelle source. La connectivité NoSQL est simplifiée grâce aux connecteurs graphiques préconfigurés.

₪ Plateforme de qualité : Talend offre des fonctionnalités de qualité de données fondées sur l’environnement presque identique à Hadoop, permettant ainsi d’évaluer les données et de supprimer les doublons. Le profiling de données Hadoop vous permet de collecter des informations et des statistiques concernant les Big Data, afin d’évaluer leur qualité, puis de les redéfinir, si besoin. Des fonctions supplémentaires sont incluses, notamment la standardisation, l’enrichissement, la correspondance, l’arbitrage et le monitoring de la qualité des données.

₪ Plateforme de manipulation: Talend fournit un nouveau cadre de travail avec Hadoop, Pig, NoSQL et même Redshift et Google Big Query, permettant ainsi d’effectuer des transformations complexes et des analyses sur de gros volumes de données en très peu de temps. Vous avez la possibilité de mapper, comparer, filtrer, évaluer, et regrouper des données.

L'apport Open Source de Talend

La technologie open source de Talend aide les entreprises de toutes tailles à convertir d’énormes jeux de données en intelligence métier. Alors que le déploiement de systèmes propriétaires à travers des environnements étendus et distribués de "big data" est coûteux, les logiciels open source se révèlent beaucoup plus économiques et flexibles que les solutions traditionnelles, et supportent la dimension temps réel, sans augmentation du coût des licences. Ainsi les logiciels open source représentent une technologie de choix pour les applications de "big data".

Talend

Généralités sur Talend

L'intégration de données