Datamining/Facteurs de succès
L'intérêt du Datamining
[modifier | modifier le wikicode]- Les entreprises conservent des données issues des scanners de supermarchés ou internet et les stockent dans des entrepôts de données (ou DATA WAREHOUSE).
- Le DataMining permet d’exploiter ces données pour améliorer la rentabilité d’une activité.
- Le DataMining permet ainsi d’augmenter le retour sur investissement des systèmes d’informations.
Les facteurs clés de succès
[modifier | modifier le wikicode]Plusieurs facteurs rentrent en ligne de compte dans la réussite d’un projet Datamining. Cependant, le facteur de succès principal est la personnalisation des rapports vendeurs /clients, autrement dit la gestion de la relation client par des moyens statistiques et chiffrés. En effet, dans le marketing décisionnel par exemple, l’approche client découle de la démarche inverse. On commence par choisir soigneusement les prospects, en fonction de la probabilité d'achat de tel ou tel produit par le client. Puis, on cherche quel produit de la gamme lui convient le mieux. Le client ne s'adapte donc plus aux offres des entreprises, mais c’est l'entreprise lui-même qui agit en fonction des clients.
La démarche CRISP-DM annonce les grandes lignes à suivre pour un projet réussi. Les principaux facteurs de succès du Datamining sont les suivants :
- La connaissance du Problème : connaître les raisons pour lesquelles l'entreprise choisit de faire recours au Datamining et ensuite intérioriser la problèmatique posée pour mieux la résoudre.
- La connaissance des données: afin de profiter des ressources dont dispose l’entreprise. Connaître les grandeurs, en d’autre terme, l’ampleur des éléments à étudier, et les échelles qui s’y rattachent (ordre de grandeurs, évolution). Les grandeurs proposées et les problèmes à résoudre sont indissociables pour réaliser de bons travaux de Datamining.
- La mise en forme des données: il s’agit de créer à partir des deux étapes précédentes des indicateurs chiffrés et synthétiques.
- La mise en œuvre de modèles et de typologies pertinents, afin des répondre aux problèmes posés. Les données et problèmes posés doivent être correspondre très précisément à la situation de l’entreprise.
- La prise de récul sur l’action engagée, et l'analyser une fois qu’elle a produit des effets. Les résultats positifs et négatifs permettront d’améliorer les futurs modèles.
Un processus conduisant au succès: Le modèle vertueux du CRISP
[modifier | modifier le wikicode]
L'intérêt progressif pour le Datamining a permis l’apparition d'une méthodologie pour la mise en place d'un processus de découverte de connaissances simple et efficace, applicable dans tous les secteurs d'activités. De ce besoin est né l'initiative CRISP-DM (Cross Industry Standard Process for Data Mining) au début des années 1990.
À partir du processus utilisé dans les premiers projets de Datamining, CRISP-DM a défini et validé une méthodologie potentiellement applicable dans tous les secteurs, dont les données stockables sont importantes. Elle permet de rendre les projets Datamining à grande échelles plus rapides, moins coûteux, plus fiables et surtout améliorer leur gestion. Cette méthodologie ne vise pas que les grands projets car même les petits projets de Datamining peuvent tirer profit de son utilisation.
Par cette méthodologie, on a un aperçu du cycle de vie d'un projet de Datamining. Elle identifie clairement les principales phases de ce processus au travers des tâches et des relations entre ces tâches. Il y a des relations possibles entre toutes les tâches en fonction des objectifs d'analyse et des données qui sont à analyser.Les six phases importantes du processus sont :
- La compréhension du problème métier : cela concerne la définition du problème d'analyse sur la base des objectifs métier qui en sont à l'origine.
- La compréhension des données : cette phase vise à déterminer précisément les données à analyser et à identifier la qualité des données.
- La préparation des données : elle regroupe les activités liées à la construction de l’ensemble précis des données à analyser à partir des données brutes. Elle inclue le classement des données en fonction de critères choisis, le nettoyage des données, etc.
- La modélisation: c’est la phase la plus importante dans le paramétrage et le test de différentes techniques, sachant que l'objectif est d'optimisé un modèle et ainsi les connaissances obtenues.
- L'évaluation : elle vise à vérifier le modèle ou les connaissances obtenues afin de s'assurer qu’ils répondent aux objectifs formulés au début du processus. Elle contribue aussi à la décision de déploiement du modèle, ou si besoin est, à son amélioration.
- Le déploiement: c’est l'étape finale du processus de découverte de connaissance. Son objectif est de mettre la connaissance obtenue par la modélisation, dans une forme adaptée et l'intégrer au processus de prise de décision . Le déploiement peut aller, selon les objectifs, de la simple génération d'un rapport décrivant les connaissance obtenues jusqu’à la mise en place d’une application, permettant l’utilisation du modèle obtenu, pour la prédiction de valeurs inconnues d'un élément d'intérêt (exemple : le nombre de français d’une tranche d’âge prêt à investir dans une tablette tactile).