Petit manifeste en faveur de la déduplication

Petit manifeste en faveur de la déduplication

« Référentiel client unique », « BDD client 360 », « Vision client unique », « Datamart métier »… autant de dénominations ou de concepts pour parler d’une tendance lourde du marché du CRM.

Elle concerne à la fois un « absolu » mais également l’un des objectifs les plus complexes qu’il ait été donné de relever pour les équipes marketing, à savoir : disposer d’une structure décisionnelle permettant d’offrir une vision centralisée, de référence, systématique et enfin exhaustive de la relation entre une entreprise et l’ensemble de ses clients.
Il s’agit là d’une vision vertueuse du Système d’Information client, porteuse de promesses et de nouveaux possibles en matière de marketing relationnel mais trop souvent inaccessible à l’épreuve de la réalité des projets.
Mais sa mise en œuvre est d’autant plus complexe de par la nécessité exprimée par les responsables marketing, à vouloir surmultiplier les sources de qualification et d’information sur les clients : données issues des sites web, des sites e-commerce, des systèmes de production, des outils front office, des services après-ventes, réactions et retours de campagnes marketing

Ce billet n’a pas pour objet de traiter dans son ensemble la complexité que peut porter un projet tel qu’une BDD Client Unique mais sera consacré à un des processus de gestion des données clients que nous estimons comme critique : la déduplication.

La déduplication est loin d’être un sujet mineur dans le cadre d’un projet décisionnel. La logique de définition de ses règles de gestion et leur traduction en termes d’algorithmes de déduplication, se révèlent être structurantes pour la performance d’une BDD Client Unique et sa capacité à soutenir les objectifs et les mécaniques relationnelles poursuivis par les équipes marketing.

Par ailleurs, la complexité associée à la définition et la mise en œuvre de procédures de déduplication sont directement corrélées aux enjeux induits par le nouvel environnement informationnel auxquels les entreprises doivent faire face depuis ces dernières années : explosion des volumes de données (ce que les Américains appellent le « data deluge »), généralisation des sources de données, nécessité du temps réel sur le cycle alimentation–restitution…
L’ensemble de ces constats a naturellement conduit les équipes Marketing Services de Soft Computing à repenser l’approche de ce processus, en imaginant une 3ème voie, permettant notamment de s’affranchir des limites imposées par la très grande majorité des solutions marché.

Ce chantier s’est matérialisé au travers du développement et la mise en œuvre d’une technologie propriétaire en matière de déduplication : le module DRD (Duplicate Record Edit)

La démarche mise en œuvre par les équipes Marketing Services autour du module DRD consistait au départ à trouver une alternative au modèle traditionnel en matière de déduplication. Il repose sur un transfert de gros volumes de données entre la BDD et les différents applicatifs et impose d’exploiter le stock et l’individu.

Ce modèle génère des processus lourds, très consommateurs de ressources, peu performants et enfin, très souvent asynchrones.

De plus ce constat ne serait que partiel si nous ne mentionnions pas également les limites que nous avons été amenés à constater sur les différents outils proposés par le marché. Ils ont renforcé notre intuition sur l’intérêt de développer notre propre solution.

Ces limites peuvent être synthétisées de la façon suivante :

  • Un manque de souplesse et de fortes limitations dans les possibilités de règles de paramétrage ou de gestion des erreurs de saisie
  • Des coûts de développement élevés afin d’interfacer ces solutions avec d’autres applications CRM et justifiant d’autant plus la nécessité de conserver et gérer les processus de déduplication directement en BDD

Le principe majeur du module DRD repose sur une intégration directe du moteur de déduplication dans le noyau SQL Server de Microsoft. Cet outil est le SGBD majoritairement utilisé par la Business Unit Hébergement de Soft Computing. Le module DRD apporte une nouvelle dimension en termes de performance sur des aspects tels que :

  • La recherche « floue » : un champ de type « fonction » ou « civilité » mal saisi ou mal orthographié peut arriver en base de données, mais pour laquelle le module DRD permet de l’identifier et de l’apparenter à la valeur du référentiel
  • La détection des doublons en temps réel
  • L’amélioration globale de la qualité des données
  • La simplification et la productivité des chaînes d’exploitation pour la gestion de la BDD au travers de la disparition des échanges de fichiers, des pauses dans l’exécution des chaînes et enfin une réduction significative des charges d’administration de référentiels

En conclusion :

La réussite d’un projet BDD Client Unique repose sur un véritable équilibre entre l’exhaustivité et l’adéquation marketing du modèle de données clients qui va constituer la structure de la BDD, et la performance des chaînes de traitements des données.

Le processus de déduplication qui sera mis en œuvre dans le cadre de cette chaîne de traitements sera d’autant plus déterminant afin de prévenir les risques d’accumulation de doublons et de garantir la cohérence et la qualité de la sur qualification des individus ou des entreprises en base de données.

Ecrire un commentaire

* Name, Email, Comment are Required