Mémo technique sur le Data Mining – 3/3

Mémo technique sur le Data Mining – 3/3

Un mémo technique pour résumer ce qu’est et n’est pas le Data Mining et quels en sont les enjeux aujourd’hui. Partie 3/3.

5. L’évolution prévisible

5.1 Performance et accessibilité

La tendance générale des outils de Data Mining se profile dans deux directions opposées : l’accessibilité et la performance.

  • L’accessibilité : les outils masquent de plus en plus la complexité des modèles. Ils offrent des assistants méthodologiques couvrant l’ensemble du processus. Ils se noient de manière quasiment transparente dans des outils informatiques. Le Data Mining se démocratise au fur et à mesure que les outils deviennent plus conviviaux et proposent des assistants sophistiqués pour prendre en charge la modélisation.
  • La performance : les algorithmes de prédiction sont toujours plus élaborés et performants. Ils évoluent vers des prévisions de plus en plus précises. Ils prennent en compte de mieux en mieux des données bruitées, non structurées ou incomplètes. Cette tendance est encore accentuée par l’augmentation constante de la puissance machine, qui rend aujourd’hui accessibles des analyses encore inconcevables il y a quelques années.

Cette double tendance a pour conséquence paradoxale, d’une part, de remettre entre les mains des utilisateurs finaux des techniques jusqu’alors réservées à des spécialistes de la statistique et, d’autre part, de contribuer à créer une nouvelle caste de spécialistes pour piloter et paramétrer des algorithmes toujours plus puissants. Les évolutions récentes des logiciels confirment que le Data Mining se dirige clairement vers une technologie à deux vitesses qui correspond à deux cibles : des spécialistes pour la mise en œuvre de modélisations sophistiquées et des utilisateurs finaux pour l’exploration guidée de données ou l’utilisation guidée d’algorithmes noyés dans des applications métiers.

5.2 Le Data Mining et les données non structurées

L’essentiel des outils et des applications du Data Mining cible encore le domaine de l’exploitation de données structurées. Cependant, les réseaux de neurones, par exemple, ont de longue date été utilisés dans le cadre de la reconnaissance d’image ou d’écriture. Un certain nombre de recherches ou de produits émergents traitent du Data Mining appliqué à des informations multimédias :

  • Text Mining : l’analyse de documents, type post ou commentaires, pour la recherche d’associations de mots ou de concepts. Ces techniques sont utilisées pour mettre en relation des cibles et le vocabulaire utilisé dans la communication, ou pour prendre en considération les commentaires des clients sur des enquêtes de qualité. On parle fréquemment de l’analyse de sentiments.
  • Image Mining : il s’agit de rechercher des relations entre des images ou des séquences d’images. Ainsi, l’image mining peut, par exemple, contribuer à rechercher des similarités entre des images médicales pour trouver une pathologie semblable, ou comme c’est le cas dans facebook à reconnaître des visages sur une photo et à proposer des tags.
  • Webmining : l’analyse porte ici sur les logs web, c’est-à-dire les traces laissées par les visiteurs sur un site. Des outils permettent simplement de les parser pour en extraire de l’information puis d’analyser ces informations à la fois à des fins statistiques (temps moyen passé sur une page par exemple) ou opérationnelle (identification pour action des visiteurs ayant abandonné leur panier).
  • Vidéo Mining : le vidéo mining est une extension de l’image mining dans le domaine de la vidéo. Très confidentiel pour l’instant, compte tenu de la puissance machine qu’il nécessite, le vidéo mining consiste à rechercher des éléments communs ou à classer des vidéos en fonction de leur contenu. Les applications potentielles sont l’indexation de banques de films, l’analyse des visages sur les vidéos de surveillance ou l’optimisation des grilles de programmes des opérateurs de télévision.

6. Les perspectives

Les technologies sont là pour la plupart et elles évoluent à vitesse grand v.

Il existe néanmoins des goulots d’étranglement qui, s’ils ne sont pas adressés, entraveront une croissance de l’offre à la hauteur de la croissance de la demande. Je ne citerai ici que les trois principaux :

  • Le premier frein est le manque de data miner car le besoin étant relativement récent, les systèmes éducatifs ne se sont pas encore adaptés.
  • Le second est le respect de la vie privé qui peut restreindre les utilisations possibles des données, soit par des réglementations soit par une autorégulation des acteurs.
  • Le dernier est d’ordre juridique et concerne à la fois la propriété de la donnée et la responsabilité des résultantes de ses utilisations. Pour être concret, si demain, une voiture sans conducteur provoque un accident, qui en sera responsable ? le constructeur, l’éditeur du logiciel de conduite, l’opérateur ayant envoyé les mauvaises informations au véhicule ?

Quoiqu’il en soit, la croissance des volumes de données présage de beaux jours pour le Data Mining ; la demande est là et il ne s’agit certainement pas d’un phénomène de mode mais bien d’une véritable révolution industrielle.

Ecrire un commentaire

* Name, Email, Comment are Required