Data lake et Dataviz au secours des Data Scientists

Data lake et Dataviz au secours des Data Scientists

Nous vivons actuellement 2 ruptures en parallèle, l’une sur les outils de collecte des données et l’autre sur les technologies de stockage et d’analyse.

Explosion des données collectées et des moyens d’analyse

L’explosion des objets connectés ouvre la porte à une collecte et des interactions en quasi temps-réel au prix d’une explosion des volumes de données d’usage recueillies, stockées et analysées. La technologie, quant à elle, ouvre des perspectives révolutionnaires, tant en termes de faisabilité que de coût de possession, aux problématiques de gestion de très hauts volumes de données, d’analyse et de croisement de ces volumes de données et enfin de rapidité de traitements analytiques.

Les composantes pour l’exploration des données

Ces ruptures sans précédent constituent autant d’opportunités stratégiques pour les organisations en général et pour les Directions Informatiques en particulier. Pour les saisir, il convient de se doter de moyens (technologies, processus et compétences) pour collecter, nettoyer, appareiller, explorer, analyser et restituer la connaissance sur des volumes de données qui vont exploser de manière exponentielle au gré de l’accélération des déploiements d’objets connectés. Sur le plan des outils, les composantes essentielles sont à notre sens :

Un référentiel central des données : il s’agit de déverser les données d’entreprise et les données d’usage et de parcours digitaux dans un data lake centralisé évolutif horizontalement pour supporter une croissance exponentielle des volumes, des utilisations et des contraintes de latence. Ce data lake doit proposer des moyens avancés pour rechercher des données et évoluer rapidement afin d’absorber à moindre coût de nouveaux flux ou de nouveaux liens.

Un laboratoire agile : dotées d’accès à ces gisements de données, d’outils d’exploration, de visualisation et d’analyse adéquats, les équipes de data scientists devront apporter rapidement des réponses aux nouveaux besoins exprimés par les métiers avec un maximum d’autonomie. Ceci requiert une capacité à comprendre les besoins des métiers, à concevoir des plans d’études, à manipuler les données, à élaborer des modèles mathématiques et à en communiquer les résultats aux métiers sous une forme intelligible.

Un socle d’industrialisation : que ce soit en sortie du laboratoire agile, à l’occasion du décommissionnement d’un SI ou de la réponse à un nouveau besoin, le référentiel central des données a vocation à irriguer en données brutes ou transformées des systèmes d’informations industriels (au sens où ils sont en production et soumis aux contraintes d’exploitation et d’administration) que ce soit à des fins de reporting, de prévisions ou d’interactions.

Une gouvernance des données : toutes les organisations ont vocation à évoluer dans leur cœur de métier pour devenir également fournisseur de données internes, tant en central qu’en local, ainsi qu’externes (clients, fournisseurs, collectivités, open data…). Ceci passe par la mise en place d’une véritable gouvernance des données : cycle de vie, valeur, qualité, règle de calcul, propriété, accessibilité, conservation, anonymisation, auditabilité, documentation…

Les difficultés de la mise en place d’une démarche exploratoire

Les principaux écueils de cette vision se situent, de par notre expérience, dans l’exécution :

Compétences : les analystes doivent à la fois comprendre et dialoguer avec le métier, maîtriser le datamanagement et les outils statistiques, une combinaison rare de compétences.

Autonomie : pour les phases exploratoires et analytiques, il est essentiel que les analystes puissent dérouler leur process sur le laboratoire en toute autonomie, dans l’esprit de la « self-service BI ». Ils doivent donc maîtriser les outils d’analyse, de visualisation, d’exploration et de transformation, et connaître les données et les méta-données d’un référentiel aussi exhaustif que possible.

Rapidité : si les délais informatiques (les « paliers » dans le jargon) sont trop longs pour intégrer un nouveau flux par exemple, le métier aura vite fait de shunter le data lake pour créer une nouvelle redondance de données ou de traitement. Il est essentiel que le référentiel soit conçu, réalisé et maintenu dans une optique, à défaut d’une méthodologie, agile avec des délais de déploiement très courts.

Test and learn : analystes et métiers doivent développer une relation de confiance car elle est indispensable lors des inévitables itérations nécessaires pour trouver par ajustements successifs le juste équilibre entre underfitting et overfitting, entre lisibilité des modèles et performance prédictive.

Gouvernance : une instance décisionnaire doit pouvoir imposer des règles transversales (ex : anonymisation), arbitrer des besoins concurrents (ex : réseau et client) ainsi que la mutualisation entre différents départements ou usages, de certains flux, traitements qualité ou calculs.

Hybride : le data lake « schemaless » répond au besoin d’agilité sur la donnée. A contrario, les modèles structurés sont mieux adaptés pour une gouvernance de la donnée et en particulier pour les données de pilotage. Les équipes devront donc être capables d’adresser un environnement « hybride » (ie : sql et nosql).

Revoir la présentation « Le Data Lake : révolution de la data science, complément au Data Warehouse ou simple buzz marketing ? »

Ecrire un commentaire

* Name, Email, Comment are Required