au sommaire
Le terme de Data Mining est un terme anglo-saxon qui peut être traduit par « exploration de données » ou « extraction de connaissances à partir de données ». Ainsi le Data Mining consiste en une famille d'outils -- qu'ils soient automatiques ou semi-automatiques -- permettant l'analyse d'une grande quantité de données contenues dans une base. Objectif : faire apparaître des corrélations entre des phénomènes en apparence distincts afin d'anticiper des tendances.
Le Data Mining pour qui ?
Les entreprises évoluent dans un environnement de plus en plus complexe. Avec le succès de la numérisation, l'avènement d'Internet -- le web représente un réservoir de données colossal qui continue de croître chaque jour -- et l'émergenceémergence des objets connectés, les entreprises sont entrées dans l'airair du Big Data. Elles sont inondées d'informations en tous genres. Et le volumevolume des données stockées a de quoi faire tourner les têtes. Sans parler de leur variété (textes, images, sons, etc.) qui ne cesse de s'accroître, toujours en corrélation avec les données qui circulent en ligne.
Les entreprises s'appuient donc, par exemple, sur les techniques de Data Mining dans le domaine du marketing. Pour maximiser le rendement de leurs opérations ou même personnaliser une offre suivant un profil d'achat, identifier les clients susceptibles d'opter pour la concurrence, étudier les usages des canaux de communication, etc. Elles exploitent également le Data Mining pour identifier les clients à risque (octroi d'un crédit ou souscription d'une assurance), anticiper la survenue d'incidents financiers, lutter contre les utilisations frauduleuses de cartes bancaires, etc.
Les pouvoirs publics s'intéressent également au Data Mining dans le cadre de la caractérisation des crimes, par exemple, ou pour des questions touchant à la défense d'un pays. Enfin la science, bien sûr, peut en tirer parti dès lors qu'il s'agit de caractériser un phénomène complexe comme un comportement humain ou l'expression d’un gène. Ainsi en génétiquegénétique, le Data Mining aide à percer la relation de correspondance entre ADNADN et maladies en comprenant comment des changements dans une séquence ADN affectent le risque de développer une maladie.
Le Data Mining, comment ça marche ?
Pour mener à bien un projet de Data Mining, il faut évidemment d'abord définir clairement la problématique à étudier. Ensuite, il est crucial de sélectionner parmi l'ensemble des données disponibles, celles qui pourront être utilisées. C'est-à-dire celle dont la qualité ne laisse aucune place au doute, par exemple.
Le tout en s'assurant que le nombre de données exploitées reste en corrélation avec la complexité du problème traité. Plus le problème est complexe, plus il faudra de données. Vient alors l'étape de paramétrage du modèle construit à partir de techniques issues des méthodes statistiques, des analyses de données et de l'informatique. L'objectif peut être d'extrapoler de nouvelles données à partir d'une base, de mettre en évidence des données existantes noyées dans la massemasse ou de réduire la masse des données. Enfin, il faut procéder à l'étude des résultats. Les logiciels ne sont en effet pas autosuffisants et l'intervention d'un analyste spécialisé reste indispensable.
Le Data Mining c'est quoi ?
Le Data Mining appartient au champ lexical de l'informatique. On le traduit de différentes manières : exploration, forage ou fouilles des données. Il revêt une importance considérable qui appartient au Big Data.
Traiter des données grâce à l’outil informatique
L'exploration de données exauce les vœux que caressent la sociologie et la macro-économie depuis la première moitié du XXème siècle. Elle a pour but d'établir des corrélations entre des informations inqualifiables que fournit aujourd'hui Internet.
Aucun esprit humain, aussi génial soit-il, ne serait en mesure de penser à tant de causalités, comme il était encore possible de le faire dans les années 1960. Elle appartient à l'ère du Big Data, autrement dit des mégadonnées ou des données massivesdonnées massives.
Trois types de données
On peut classer en trois catégories les données que reçoivent les États et les grandes entreprises :
- les données opérationnelles dites également transactionnelles. On y inclut notamment les données d'inventaires, de comptabilité, de coût, de tickets de caisse, de ventes, etc.
- les données non-opérationnelles, qu'elles soient macro-économiques, prévisionnelles, ou qu'elles concernent les ventes industrielles,
- les métadonnées qui touchent aux données elles-mêmes comme les dictionnaires de données.
Le Data Mining comment ça marche ?
L'optimisation de l'exploration de données est une affaire de progrès technologiques, mais également de rigueur et de méthode.
L’entrepôt de données
L'entrepôt de données ou data warehouse, que l'on appelle également base de données décisionnelles, collecte et met à jour des informations. Longtemps perçu comme une utopie, il est devenu une réalité dans les grandes entreprises et les administrations. Il constitue aujourd'hui une véritable aide à la décision et s'intègre dans ce qu'il est convenu d'appeler l'informatique décisionnelle.
Cinq types d’exploration des données
- le principe de l'association consiste à chercher des patterns où deux évènements sont rattachés l'un à l'autre,
- l'analyse de séquence cherche des relations de causalité au sein des patterns,
- la classification vise à découvrir des patterns nouveaux,
- le partitionnement de données ou clustering consiste à diviser les données par paquetspaquets,
- la prédiction ou analyse prédictive, qui permet d'établir des prévisions raisonnables à partir des données fournies.
Le traitement des données dépend naturellement du donneur d'ordre et de son champ d'investigations.
À quoi sert le Data Mining ?
L'exploration de données est massivement utilisée dans des domaines variés. On peut citer quelques exemples :
Le secteur de la banque et de la finance
Le secteur de la banque et de la finance est doublement intéressé par la fouille de données ;
- les prévisions concernant l'évolution des marchés financiers,
- l'établissement d'un buying persona qui permet d'accorder des prêts en fonction du niveau de revenu, du patrimoine et de l'endettement éventuel de la clientèle.
La gestion de la relation client
Le forage des données permet d'établir un buying persona très élaboré du public cible. Elle permet de prendre en compte les centres d'intérêt, de niveau de revenu, les professions, les attentes en mesure d'encourager la consommation.
L'exploration de données préoccupe naturellement tous les secteurs qui ont besoin de gérer l'information, qu'il s'agisse du gouvernement, de la publicité, de la recherche industrielle et scientifique, etc.