Pentaho/Data Mining

Leçons de niveau 16
Une page de Wikiversité, la communauté pédagogique libre.
Début de la boite de navigation du chapitre
Data Mining
Icône de la faculté
Chapitre no 7
Leçon : Pentaho
Chap. préc. :Intégration de données
Chap. suiv. :Sommaire
fin de la boite de navigation du chapitre
En raison de limitations techniques, la typographie souhaitable du titre, « Pentaho : Data Mining
Pentaho/Data Mining
 », n'a pu être restituée correctement ci-dessus.
Add caption here
Add caption here


Définition[modifier | modifier le wikicode]

Le Data Mining ou fouille de données, est l’ensemble des méthodes et techniques destinées à l'exploration et l'analyse de bases de données informatiques souvent très grandes, de façon automatique ou semi-automatique, en vue de détecter dans ces données des règles, des associations, des tendances inconnues ou cachées, des structures particulières restituant l'essentiel de l'information utile tout en réduisant la quantité de données. Pour résumer, le data mining est l'art d'extraire des informations à partir de données afin de prendre une décision stratégique.


Il existe deux type de Data Mining: le descriptif et le prédictif.

  • Le descriptif vise à mettre en évidence des informations présentes mais cachées par le volume important de donné. C'est le cas lors de la classification automatique d'individu et des recherches d’associations de produits ou médicaments.
  • Le prédictif vise à tirer, faire ressortir de nouvelles informations à partir des informations présentes. Ces nouvelles informations seront alors qualitatives.

Exemples : - Scoring : Classer les clients selon des critères définis ou quantitatives - Prédictions : Prévision de chiffres.

Objectifs[modifier | modifier le wikicode]

Le Data Mining est une technique d'aide à la décision très utilisée par les entreprises actuelles, peu importe le secteur d'activités. En effet il est aussi bien utilisé par les entreprises commerciales que les industrielles, ou encore les entités financières. Aujourd'hui, les entreprises ne se demandent plus seulement "Combien de clients ont acheté tel produit pendant telle période?", "Quel est leur profil?",… mais plutôt les questions suivantes:

  • Quel autre produit les intéressera?
  • Quand seront-ils intéressés?


Le Data Mining est au cœur du processus d’extraction de connaissances et de l’information à partir de grosses bases de données.

Il a pour objectifs :

  • La recherche, la spécification puis le ciblage de niches de marché les plus profitables ou au contraire les plus risquées
  • L'évacuation de la notion de client moyen par la gestion individualisée de la relation client en termes de communication et de production
  • Le traitement exhaustif des données pour ne pas laisser échapper du crible d’un sondage des groupes de faibles effectifs mais de caractéristiques importantes.


Chaque consommateur est unique et se différencie par ses goûts, son mode de vie, son sexe, son âge, son lieu d'habitation et bien d'autres critères. Il est donc évident que les profils de clientèle à découvrir sont des profils complexes. Les simples oppositions telles que "jeune/âgé", "femme/homme", "citadin/ruraux" peuvent facilement se retrouver avec des statistiques descriptives. Mais la réalité est faite de combinaisons plus complexes, dont les variables discriminantes ne sont pas celles auxquelles on pense directement. Ces dernières sont tellement subtiles que nous n'aurions pas pu les découvrir par hasard. Et c’est là que le Data Mining devient intéressant. Avec le Data Mining nous passons de "l'analyse confirmatoire" à "l'analyse exploratoire". Les techniques de Data Mining, plus complexes que la statistique descriptive de base, s'appuient sur des outils d'intelligence artificielle (Réseaux de neurones), la théorie de l'information (Arbres de décision), des statistiques (basées sur des échantillons) et des analyses de données traditionnelles (analyse factorielle, classification automatique...)

Utilisation en entreprise de data mining Pentaho[modifier | modifier le wikicode]

Une fois que l’on a l'analyse, le reporting, et les tableaux de bord déployés, il est temps de passer à la phase exploitation des données. Le Data Mining fournit un avantage concurrentiel qui permet à l'entreprise de maximiser son efficacité. Le Data Mining est un procédé basé sur des algorithmes et des statistiques pour découvrir les modèles et les corrélations significatives qui ne peuvent apparaître dans une base de données classique.

Le Data Mining ne se restreint pas à une visualisation simple des chiffres tels que le chiffre d'affaire global selon la région; mais a pour but de faire ressortir des informations cachées mais présentes dans la masse de volume, suite à des combinaisons peu probables.

Grâce à cette extraction, nous pouvons observer nos chiffres de ventes par produits selon un périmètre définit.
Avec l'outil Data Mining dans un premier temps nous faisons ressortir les chiffres concernant les ventes par ville dans le périmètre donné (USA).
Nous observons qu’à l'est des USA, nos ventes sont en majorité dans le rouge à l'exception de New York qui se trouve en vert.
Pourquoi un tel résultat ?

Après avoir zoomé sur cette zone, nous constatons que New York est la seule ville qui nous rapporte un chiffre d'affaires satisfaisant par rapport aux villes avoisinantes.
Ce qui nous amène à soulever des interrogations telles que : "Pourquoi avons nous des meilleurs ventes à New York? Quels sont les facteurs (démographiques, culturels, sociaux,...) qui jouent sur nos chiffres de ventes? Quels sont les moyens et actions à mettre en œuvre?" ...

Article connexe[modifier | modifier le wikicode]