Mémo technique sur le Data Mining

Mémo technique sur le Data Mining

Un mémo technique pour résumer ce qu’est et n’est pas le Data Mining et quels en sont les enjeux aujourd’hui. Partie 1/3.

En faisant un grand ménage sur mon disque dur, je suis tombé sur un white paper écrit en 1998 explicitant ce qu’étaient à l’époque le Data Mining. Il s’agissait du résumé du livre que nous rédigions un peu plus tard, René Lefébure et moi-même, et qui fut le premier sur le sujet.

15 ans après, Soft Computing compte probablement le pôle de data miners le plus important en France et a accumulé plusieurs milliers d’années homme d’expérience sur le sujet et dans tous les secteurs d’activité. A ce titre, et bien qu’il y ait profusion de publications et de retours d’expérience sur le sujet, il m’a semblé que je me devais, au nom de Soft Computing, de partager la vision du Data Mining que nous nous sommes forgés au cours du temps.

1. Synthèse : ce qu’il faut savoir …

Une évolution plutôt qu’une révolution : plutôt que de nouveaux outils révolutionnaires, le Data Mining représente plus simplement la concrétisation d’une évolution d’outils statistiques très techniques vers de plus en plus de simplicité d’utilisation et de transparence. Le Data Mining bénéficie par ailleurs de la baisse continue du prix de la puissance informatique, des évolutions vers le cloud ainsi que du développement de l’open source.

Une technologie qui tend à se fondre : il est certain que le Data Mining prolifère. Il devient en parallèle de plus en plus masqué et noyé que ce soit dans des moteurs de bases de données, dans nos outils bureautiques, dans des librairies de recherche textuelles ou au sein des framework de développement pour le e-Commerce.

Des risques à suivre une démarche essentiellement technologique : les logiciels sont une composante essentielle du Data Mining. Mais la démarche suivie et la formulation du problème conditionneront les résultats. Il est donc primordial de structurer cette démarche et l’organisation d’un projet avant de plonger dans la sélection d’outils techniques.

La possibilité de démarrer petit : tout en voyant grand, le Data Mining peut démarrer sur des opérations d’envergure restreinte avec des investissements limités et sur des extractions de données « manuelles ». Il n’est pas nécessaire de se lancer au préalable dans un projet Big Data, ni d’acquérir des logiciels de plusieurs millions, pour pouvoir profiter du potentiel du Data Mining.

Une maturité des techniques de modélisation : il reste de nombreux axes de recherche et développement mais, dans leurs grandes lignes (arbres de décision, réseaux neuronaux, algorithmes génétiques, clusterisation, associations), les techniques de modélisation et les outils associés sont éprouvés. Ils apportent les résultats escomptés. En d’autres termes, malgré une présentation ou un vocabulaire parfois ésotérique, ça marche vraiment.

Une véritable opportunité : certains discours Big Data placent sans doute la barre trop haute en faisant des promesses inconsidérées. Néanmoins, une utilisation raisonnée du Data Mining apportera dans presque tous les cas des retours sur investissements alléchants. Le pari du Data Mining, dans la mesure où il reste fondé sur des objectifs réalistes, est sans risque et peut apporter des sources de profit. Ses territoires d’applications sont encore très largement inexplorés, et donc à fort potentiel de marge de progrès.

2. Présentation générale et enjeux

2.1 Présentation générale

Le Data Mining est un sujet qui dépasse aujourd’hui le cercle restreint de la communauté scientifique pour susciter un vif intérêt dans le monde des affaires. La littérature spécialisée et la presse ont pris le relais de cet intérêt et proposent pléthore de définitions générales du Data Mining :

  • « l’extraction d’informations originales, auparavant inconnues, potentiellement utiles à partir de données » ;
  • « la découverte de nouvelles corrélations, tendances et modèles par le tamisage d’un large volume de données » ;
  • « un processus d’aide à la décision où les utilisateurs cherchent des modèles d’interprétation dans les données » ;
  • d’autres, plus poétiques, parlent de « torturer l’information disponible jusqu’à ce qu’elle avoue ».

Plus généralement, les spécialistes du domaine considèrent que la « découverte de connaissances dans les données » (ou Knowledge Discovery in Database, abrégé en KDD) englobe tout le processus d’extraction de connaissances à partir de données. Le mot « connaissance » est compris ici comme étant un ensemble de relations (règles, phénomènes, exceptions, tendances…) entre des données.

2.2 Les principales applications du Data Mining

Le tableau ci-dessous propose une ventilation, non exhaustive, des principales applications recensées par secteurs d’activité :

  • Grande distribution et VPC : Analyse des comportements des consommateurs, recherche des similarités des consommateurs, prédiction des taux de réponse en marketing direct, vente croisée et activation sélective dans le domaine des cartes de fidélité, optimisation des réapprovisionnements, analyse des parcours client sur les sites internet, écoute et synthèse des post sur les réseaux sociaux.
  • Laboratoires pharmaceutiques : Modélisation comportementale et prédiction de médications ou de visites, optimisation des plans d’action des visiteurs médicaux pour le lancement de nouvelles molécules, identification des meilleures thérapies pour différentes maladies.
  • Banques : Recherche de formes d’utilisation de cartes caractéristiques d’une fraude, modélisation prédictive des clients partants, détermination de pré-autorisations de crédit revolving, modèles d’arbitrage automatique basés sur l’analyse de formes historiques des cours.
  • Assurance : Modèles de sélection et de tarification, analyse des sinistres, recherche des critères explicatifs du risque ou de la fraude, prévision d’appels sur les plates-formes d’assurance directe.
  • Aéronautique, automobile et industries : Contrôle qualité et anticipation des défauts, prévisions des ventes, dépouillement d’enquêtes de satisfaction,
  • Transport et voyagistes : Optimisation des tournées, prédiction de carnets de commande, marketing relationnel dans le cadre de programmes de fidélité.
  • Télécommunications, eau et énergie : Simulation de tarifs, détection de formes de consommation frauduleuses, classification des clients selon la forme de l’utilisation des services, prévisions de ventes.

2.3 Les enjeux

En préambule, les résultats du Data Mining doivent, s’ils veulent prouver leur rentabilité, être intégrés selon les cas, soit dans l’informatique de l’entreprise, soit dans ses procédures. Ainsi, après avoir, par exemple, élaboré un modèle prédictif du départ d’un client à la concurrence, il faudra, soit mettre en place des programmes pour calculer le risque de départ de chaque client, soit diffuser une procédure pour que les commerciaux appliquent manuellement ces règles et prennent les mesures adaptées. Cela étant posé, les opérations de Data Mining se soldent généralement par des gains significatifs tant en termes absolus (les euros gagnés) qu’en termes relatifs (les euros gagnés sur les euros investis). A titre indicatif, il n’est pas rare que les premières applications de Data Mining génèrent plus de dix fois l’investissement qu’elles auront nécessité, soit un retour sur investissement de l’ordre du mois !
Afin d’illustrer ce potentiel, nous avons pris trois cas concrets, maquillés pour des raisons évidentes de confidentialité :

  • une banque veut améliorer son taux de transformation de rendez-vous commerciaux en vente de produits financiers : 60 millions de retour pour un investissement de 2 millions soit une durée de retour sur investissement de l’opération de Data Mining en 12 jours.
  • un e-commerçant veut réduire le nombre de retours : 16 millions de retour sur un investissement de 250 000 euros soit une durée de retour sur investissement d’une dizaine de jours.
  • une entreprise de vente par correspondance (VPC) cherche à améliorer le taux de rendement sur l’envoi de son catalogue spécialisé : 1 million de retour sur un investissement de 80 000 euros soit une durée de retour sur investissement d’environ 30 jours.

Ecrire un commentaire

* Name, Email, Comment are Required