Mémo technique sur le Data Mining – 2/3

Mémo technique sur le Data Mining – 2/3

Un mémo technique pour résumer ce qu’est et n’est pas le Data Mining et quels en sont les enjeux aujourd’hui. Partie 2/3.

3. Les technologies du Data Mining

3.1 Le processus du Data Mining

Quel que soit le domaine d’applications, une opération de Data Mining suit globalement un processus en huit étapes :

  1. poser le problème
  2. rechercher des données
  3. sélectionner les données pertinentes
  4. nettoyer des données
  5. transformer les variables
  6. rechercher le modèle
  7. évaluer le résultat
  8. intégrer la connaissance

3.2 Les principaux algorithmes de Data Mining

On dénombre sept techniques principales dans le domaine du Data Mining :

  1. Apprentissage fondé sur l’explication (EBL pour Explanation Based Learning) : apprentissage formé sur des explications dérivées d’une théorie (généralement incomplète) fournie en entrée. Cette forme d’apprentissage repose sur des déductions pour expliquer les données à partir de la théorie et sur des arbres de décision pour générer de la nouvelle connaissance.
  2. Apprentissage statistique (STL pour Statistical Learning) : cet apprentissage repose sur des opérations statistiques telles que la classification bayésienne ou la régression pour apprendre à partir de données.
  3. Apprentissage par réseaux neuronaux (NNL pour Neural Network Learning) : un réseau de neurones est défini par un ensemble d’unités de traitement qui peuvent être des unités soit d’entrée, soit de sortie, soit cachées. L’apprentissage s’effectue par l’injection de cas en entrée et par la mesure des conclusions en sortie.
  4. Apprentissage par algorithme génétique (GAL pour Genetic Algorithm Learning) : les algorithmes génétiques sont des procédures de recherche fondées sur la dynamique de la génétique biologique. Ils comportent trois opérateurs, la sélection, la combinaison et la mutation, qui sont appliqués à des générations successives d’ensemble de données. Les meilleures combinaisons survivent et produisent, par exemple, des plannings, des règles…
  5. Apprentissage par similarité (SBL pour Similarity Based Learning) : ces techniques utilisent des indicateurs de similarité pour regrouper des données ou des observations et pour définir des règles.
  6. Apprentissage symbolique empirique (SEL pour Symbolic Empirical Learning) : cette forme d’apprentissage extrait des règles symboliques compréhensibles par l’utilisateur à partir de données. On retrouve dans cette catégorie les algorithmes ID3/C4.5 et CN2 notamment.
  7. Apprentissage par analogie (ANL pour Analogy Learning) : l’apprentissage s’appuie sur l’analogie entre un nouveau cas et des cas ressemblants soumis préalablement.

Les principales natures de problèmes qui sont résolus par ces techniques sont au nombre de sept :

  1. Classification : la capacité de classer des objets ou des événements comme membres de classes prédéfinies ;
  2. Prédiction : liée à la classification, cette tâche vise à prédire une ou plusieurs caractéristiques inconnues à partir d’un ensemble de caractéristiques connues ;
  3. Optimisation : il s’agit d’optimiser un ou plusieurs paramètres d’un système, compte tenu d’un ensemble de contraintes ;
  4. Planning : cette tâche consiste à déterminer un ensemble d’actions ordonnées qui satisfont un ensemble donné de buts ;
  5. Ordonnancement : l’ordonnancement suit le planning et consiste à positionner des actions dans le temps et à leur affecter des ressources ;
  6. Acquisition de connaissances : l’acquisition de connaissances consiste à créer une représentation efficace et fidèle de la connaissance d’experts ;
  7. Résolution de conflits : la résolution de conflits peut, par exemple, aider à départager des experts qui sont en désaccord ou s’appliquer dans le cadre de processus de négociation.

3.3 La segmentation des éditeurs et des prestataires de Data Mining

Les fournisseurs de logiciels peuvent être segmentés selon qu’ils sont spécialisés sur le Data Mining ou qu’ils encapsulent du Data Mining au sein de leurs fonctionnalités :
Les spécialistes : on retrouve ici IBM-SPSS, SAS ou KXEN, ainsi que dans la catégorie des Open Source « R » ou Rapidminer.
Les généralistes : ils sont protéiformes, donc toute énumération sera très partielle. On peut néanmoins citer les bases de données qui intègrent des fonctions de prédictions ou de segmentation ainsi que les plates-formes de e-Commerce qui proposent des algorithmes apprentissant permettant de faire des recommandations personnalisées en temps réel.

Ce panorama ne serait pas complet sans parler des sociétés de services, telles que Soft Computing en France. Elles proposent des prestations de réalisation d’études, d’intégration du Data Mining dans l’informatique ou les processus ainsi que d’exploitation de centres de services Data Mining.

4 Mise en œuvre de la technologie

4.1 Quelques pièges à éviter

L’introduction de nouvelles méthodes et technologies comprend toujours une dose de risque pour l’entreprise. Sans prétendre être exhaustifs, voici quelques pièges à éviter :

  • Attention à la qualité des données : avant de promettre des retours mirobolants du Data Mining sur un domaine particulier, assurez-vous que les données dont vous aurez besoin sont suffisamment fiables. A l’usage, il s’avère qu’une forte proportion de données d’un système d’informations est entachée d’erreurs !
  • Évitez une démarche centrée sur les outils : les techniques de modélisation, et donc les logiciels, ne peuvent être sélectionnés qu’une fois le problème à traiter correctement formulé. Ne vous laissez pas tenter par tel ou tel fournisseur qui vous propose un outil miracle ; restez concentré sur le processus de Data Mining plutôt que focalisé sur des outils.
  • Ne substituez pas le Data Mining aux statistiques : une erreur grave consiste à remplacer les outils (et les équipes) statistiques par du Data Mining. Cette position risque de créer des conflits internes en mettant en compétition des techniques et des hommes. En définitive, le Data Mining et les statistiques sont complémentaires et doivent nécessairement collaborer.
  • N’oubliez pas l’intégration dans le système d’informations : la construction d’un modèle a souvent un objectif opérationnel qui passe par une application du modèle à des données de l’entreprise (affectation d’un score à des clients, calcul quotidien des prévisions de stocks…). Cette phase d’application doit être considérée dès le démarrage d’une opération de Data Mining, tant sur le plan des données (un modèle parfait mais qui travaille sur des données inexistantes dans l’entreprise n’est d’aucune utilité) que sur le plan des technologies (un réseau de neurones sur PC parfaitement apte à prédire le risque d’un client sera très difficilement intégrable dans une transaction de saisie de dossiers de crédit sur site central).
  • Ne négligez pas la communication et la mise en application : le processus de Data Mining étant arrivé à son terme, il reste encore à en communiquer les résultats et à en assurer la mise en application. Ces deux étapes sont fondamentales pour que les promesses de retour sur investissement se concrétisent effectivement et ne restent pas de simples chiffres abstraits posés sur un transparent ou dans un rapport.
  • Anticipez la résistance au changement : le Data Mining ne révolutionne pas l’entreprise. Cependant, il rend certains changements nécessaires. Or, les organisations présentent toutes des résistances au changement. Une communication adéquate autour du Data Mining et une transparence des objectifs visés peuvent contribuer à créer un consensus autour du changement, plutôt qu’une levée de boucliers.
  • Faites participer les utilisateurs : les connaissances contenues dans les données ne sont finalement qu’une partie de la connaissance de l’entreprise. Les expertises internes, les procédures et les orientations stratégiques sont autant de sources qu’il faut assembler avec les résultats du Data Mining pour obtenir des modèles probants. Dans ces conditions, les utilisateurs, c’est-à-dire les directions fonctionnelles concernées, doivent être impliqués dans le processus de Data Mining dans le cadre d’un contrôle continu. Le challenge n’est pas de construire un modèle à partir des données, mais de pouvoir prendre en compte le maximum de connaissances qui sont externes aux données.
  • Démystifiez le Data Mining : certaines techniques, on l’a vu, cultivent un certain ésotérisme, tant dans les termes utilisés que dans la transparence des résultats. Pour éviter de positionner le Data Mining comme une technique d’hyper spécialistes, il est souvent nécessaire d’accompagner sa mise en place d’une communication et de formations sur les concepts.

Ecrire un commentaire

* Name, Email, Comment are Required