Datamining/Historique
Historique
[modifier | modifier le wikicode]Étymologie
[modifier | modifier le wikicode]Les premiers termes pour désigner la fouille de données sont apparus dans les années 1960. Les statisticiens utilisent des termes comme « Pêche de données » pour désigner ce qu’ils considéraient comme une mauvaise pratique de l’analyse de données sans hypothèse. Le mot « DATAMINING » est apparu dans les années 1990. Gregory Piatesky-Shapiro a inventé le « KNOWLEDGE Discovery in Databases », ce terme est devenu populaire en apprentissage communautaire. Quant au terme « Datamining », il apparait en 1991 et plus utilisé dans les milieux d’affaires et de presse. Aujourd’hui, les termes Datamining et Knowledge Discovery sont tous deux utilisés.
Contexte
[modifier | modifier le wikicode]L’extraction de données existe depuis des siècles, en effet, auparavant, des travaux sur les méthodes d'identification des données ont été réalisés. La prolifération, ainsi que la puissance croissante des nouvelles technologies, ont contribué fortement à l’augmentation des collectes des données, la manipulation et la capacité de stockage. Les données se sont multipliées en taille et en complexité, corrélées avec des découvertes de techniques telles que les réseaux de neurones et les arbres de décision.
Le Datamining est un processus d’application de ces méthodes, dont le but est de découvrir les tendances cachées. En effet, on peut dire que le Dataming comble l’écart entre les statistiques appliquées et l’intelligence artificielle de gestion de bases de données. Les techniques utilisées ne sont pas récentes. En 1875, la méthode des régressions linéaires de Galton fait son apparition. Simultanément, des méthodes et des techniques voient le jour, telles que les analyses factorielles par Guttman, en 1941, les réseaux de neurones de Mac Culloch et Pitts, en 1943 et les arbres de décision, en 1984, ces techniques permettent alors d'exploiter et de découvrir des modèles de plus en plus précis.
Aujourd’hui
[modifier | modifier le wikicode]De nos jours, le Datamining se présente comme un outil incontournable dans un service marketing, et au sein des processus décisionnels d’une entreprise. Il rassemble un faisceau de techniques statistiques qu’il convient d’utiliser au gré des problématiques descriptives ou décisionnelles. Le Datamining s’accompagne le plus souvent d’une méthode de travail, afin d'ordonner au mieux les hypothèses, les modélisations et les actions. De plus, les capacités de stockage et de calcul offertes sont de plus en plus performantes au fil des années.
Quelques personnalités :
Auteur | Technique | Date |
---|---|---|
Francis Galton | Régression linéaire | 1875 |
Louis Guttman | Analyse factorielle des correspondances | 1941 |
Mac Culloch et Pitts | Réseaux de neurones | 1943 |
J.-P. Sonquist et J.-A. Morgan | Arbres de décision | 1964 |
John Henry Holland | Algorithmes génétiques | 1975 |
Tenenhaus | Régression logistique PLS (Projection to Latent Structure) | 2001 |
Voir aussi
[modifier | modifier le wikicode]Articles connexes
[modifier | modifier le wikicode]- Arbres de décision
- Réseaux de neurones
- Le Logiciel Pentaho
Travaux
[modifier | modifier le wikicode]- Hand D.J., Mannila H., and Smyth P. (2001) Principles of data mining, MIT Press. [Chinese translation, 2003; Polish translation, 2005] PDF