Datamining/Qu'est ce que le Datamining ?

**Qu'est ce que le Datamining ?**
Leçon : Datamining

Chapitre n^o 2
Chap. préc. :	Historique
Chap. suiv. :	Fouilles spécialisées

En raison de limitations techniques, la typographie souhaitable du titre, « Datamining : Qu'est ce que le Datamining ?
Datamining/Qu'est ce que le Datamining ? », n'a pu être restituée correctement ci-dessus.

Citation

« Le datamining est l’analyse d’un ensemble d’observations qui a pour but de trouver des relations insoupçonnées et résumer les données d’une nouvelle manière, de façon qu’elles soient plus compréhensibles et utiles pour leurs détenteurs » (David Hand, 2001).

Définition

Le Datamining ou fouille de données est un ensemble de méthodes qui consistent à extraire un savoir ou une connaissance, à partir d'une base de donnée. Contrairement aux méthodes classiques, le Datamining est plus adapté à des données à grand volume et les informations récoltées doivent aider à prendre des décisions.

Intérêt

Actuellement, les entreprises sont de plus en plus inondées de données, que ce soit à travers les scanners des supermarchés, sur internet ou des bases de données clients. Ces données s'entassent de plus en plus dans des entrepôts de données (ou datawarehouse).

Le datamining permet alors d’exploiter ces données au profit de l'activité de l'entreprise.
Le datamining permet aussi d’augmenter le retour sur investissement des systèmes d’information.

Principe

Le Datamining est un outil qui permet de produire de la connaissance :

Le SAVOIR , car dans un premier de temps, il permet de comprendre les phénomènes.
Ensuite il permet de PRÉVOIR pour enfin DÉCIDER.

Processus

Le Datamining est une suite ordonnée d'opérations qui permettent d'aboutir par la suite à un résultat. Pour cela il faut :

Comprendre le métier : définir clairement les objectifs du projet et les contraintes que l’on peut rencontrer.
Comprendre les données : recueillir, évaluer et sélectionner les données.
Préparation des données : préparer à partir des données brutes celles qui seront utilisés.
Modélisation : sélectionner et paramétrer les techniques de modélisation à utiliser.
Études des résultats : évaluer la qualité et la pertinence des résultats, en fonction de l'objectif défini.
Prise de décision

Méthodes de modélisation

Le Datamining met en œuvre un ensemble de technique issues des méthodes statistiques, des analyses de données, et de l'informatique. Il existe trois sortes de modélisation :

Les modélisations supervisées (méthode prédictive )

C'est-à-dire l'extrapolation de nouvelles données à partir d'une base brute :

Les réseaux de neurones, notamment les réseaux à apprentissage et les réseaux de type SOM (Self Organizing Maps).
Les arbres de décision pour illustrer une succession de choix et ainsi de déterminer les meilleurs attributs .

Les modélisations non-supervisées ( méthode descriptive )

C'est-à-dire la mise en évidence de donnée existante mais cachée par le volume de données :

Les recherches d'associations qui consistent à identifier quelles valeurs de variables vont ensemble.
Les statistiques , dont les statistiques descriptives, probabilité et statistiques inférentielle.
Les réseaux de neurones.

Les modélisations de réduction des données

Les analyses factorielles pour représenter graphiquement (en 2 ou 3 dimensions) les individus d'une population, de détecter les liaisons entre les variables et sélectionner les variables qui séparent le mieux les individus.

Difficultés

Il existe trois types de difficultés :

La compréhension des données : car face à une multitude de donnée, il faut utiliser des notions de bases comme table, entités ou concepts, associations, tuples ou lignes et attributs ou colonnes.
Les statistiques, notamment les notions de statistiques accompagnées de leur difficultés.
Les méthodes algorithmiques qui nécessitent de comprendre à minimum les algorithmes spécifiques au Datamining.

Pratiques à éviter

Certaines erreurs sont communément commises :

la question doit être précise et bien posée pour pouvoir cibler les recherches du datamining de façon plus fine.
la quantité de données à utiliser doit être ajustée à la complexité du problème posé, soit une grande quantité de données face à un problème complexe.
le sur-ajustement, soit le fait d’ajouter des données à étudier en cours d’analyse, est à pratiquer avec précautions en utilisant des méthodes de ré-échantillonnage telles que le bootstrap, le jackknife ou la validation croisée.
les résultats de l’analyse d’un modèle sont à interpréter seulement dans le cadre dans lequel le modèle a été conçu.

Limites techniques

On recense les limites suivantes :

Les logiciels ne sont pas autosuffisants. Un analyste spécialiste de datamining et un spécialiste du domaine d’où viennent les données doivent interpréter et étudier les résultats.
La pertinence du résultat donnée par les logiciels d’exploration n’est pas certaine et n'est pas forcément de qualité.
Les outils vont indiquer quelle variable aura une influence sur la variable à expliquer mais ne vont pas indiquer quel type de relation ont les variables entre elles.

Évolutions

L’avenir du datamining est liée à celui des données numériques. L'explosion des clouds, des wikis et des blogs contribue à un gisement de données à fouiller. Et, certains domaines n’ont pas encore saisi l'opportunité d'exploiter ces données, comme par exemple celles venant de la blogosphère. Par ailleurs, la fouille des données du domaine médical permettra de supporter la prévention des risques hospitaliers. Toutefois, avant même sa mise en œuvre, la question des limites légales concernant la vie privée des personnes devra être solutionnée.

Ainsi, le datamining n'est encore qu'un enfant qui doit gagner en maturité.

Le perfectionnement du datamining passera par l’amélioration de l’évaluation intelligente des données. Il deviendra alors nécessaire d'incorporer plus d’informations pertinentes dans les bases de connaissances, qui contiennent le savoir nécessaire afin de regrouper des données dignes d'intérêt. Par exemple, cela pourrait être les croyances de l’utilisateur, ou des hiérarchies de concepts. Une hiérarchie de concepts donne lieu à l'observation de données sous différentes dimensions : classer les clients par catégories d’âge (comme 15-25 ans, 26-45, etc.) plutôt que par âge, ou par continent plutôt que par ville ou par rue. Plus précisément, une telle hiérarchie de concepts peut se résumer de la sorte : rue < ville < région < pays < continent.

De plus, dans un futur proche, les outils de datamining prédiront le temps qu’il leur faut pour classifier, regrouper, associer, et consolider des connaissances. Sachant l’intensification colossale de la quantité des données stockées, les algorithmes seront contraints d'être plus efficaces pour dispenser une manipulation de bases de données dotée d'une certaine vélocité car ces dernières auront une taille s'estimant en tera-octets.

On peut aussi attendre l'apparition de nouveaux langages de requêtes, propres au datamining, concédant à l’utilisateur une définition des tâches plus précise.

Cependant le principal défi sera probablement de réussir à créer des outils capables d'adjoindre des données très différentes, comme celles circulant sur internet, dans le but de faire ressortir des connaissances exploitables. Le web représente le plus important réservoir de données au monde. Un réservoir qui ne cesse d'être alimenté chaque jour. Mais aujourd’hui le datamining éprouve encore des difficultés à analyser automatiquement des données multimédia, des textes de nature et de formats très divers. L’avenir du datamining passe donc également par de puissants outils de recherche et d’analyse du contenu d’internet

Datamining

Historique

Fouilles spécialisées