Que ce soit pour fusionner les silos de données de l’entreprise, contourner les limites des entrepôts de données et des outils de Business Intelligence traditionnels, ou que ce soit pour déployer des cas d’usage marketing s’appuyant sur la donnée, collecter et analyser des données non structurées… la constitution d’un Data Lake s’impose comme un sujet incontournable des stratégies data des entreprises.
Pour les métiers du marketing, les enjeux principaux actuellement sont de disposer d’une vision toujours plus « 360° » des clients quel que soit le ou les canaux d’interaction qu’ils utilisent et de leur proposer des expériences personnalisées, éventuellement à partir de données collectées en temps réel. Le Data Lake peut répondre alors à ce besoin d’un « réservoir » de données sur lequel des analyses et des modèles de décision pourront être développés. Mais ce besoin dépasse largement les besoins du seul marketing avec des enjeux majeurs sur les achats, la chaîne logistique, le prix, les assortiments, la fraude, le merchandising, etc. Les entreprises sont ainsi de plus en plus nombreuses à adopter ces réservoirs de données au service de tous les métiers.
Alors, qu’implique la mise en place d’un Data Lake en termes de stratégie, de ressources humaines et d’infrastructure technologique ? Et n’y a-t-il pas des limites imposées par le cadre juridique ?
Comment définir le Data Lake ?
Le Data Lake est un espace de stockage dans lequel on déverse les données provenant de systèmes internes et externes pour en tirer de la connaissance, des prévisions et des actions. Ces résultats prennent la forme de rapports agiles, visuels, combinant de multiples sources de données, ou d’applications métiers diverses qui utilisent la donnée et « l’intelligence » acquises dans le Data Lake, pour la restituer, directement ou sous forme de web services, aux outils de relation client des vendeurs, du centre d’appel ou directement sous forme de recommandations sur le site web, ou encore sous forme d’alertes ou de prescriptions à destination des différents métiers.
Pour le marketing et le media, il ne faut pas le confondre avec la DMP (Data Management Platform), qu’il ne remplace pas, bien au contraire. Le Data Lake est très complémentaire : le rôle de la DMP est de segmenter les audiences et les clients, en temps réel, selon leur comportement, pour leur appliquer des scénarios d’activation, que ce soit par le média, le social ou les canaux CRM classiques (email, SMS, etc.). La DMP est donc une source potentielle pour le Data Lake, aussi par les données que la DMP collecte (les touches média par exemple) mais aussi par l’affectation à des segments d’audience qu’elle réalise. Le Data Lake va permettre une analyse en profondeur, dans la durée, pour tirer des enseignements sur les comportements que la DMP, qui a une vocation opérationnelle, a pu capter. L’essentiel des solutions de DMP actuelles n’ont pas les fonctions permettant l’analyse, l’exploration, le croisement des données comme on peut le faire avec un Data Lake.
Cette souplesse et cette flexibilité du Data Lake pour croiser et analyser les données sont une différence essentielle avec les entrepôts de données (Data Warehouses) construits dans de nombreuses entreprises. Méthodologiquement et techniquement, ces entrepôts reposent sur une « modélisation à l’écriture » (model on write, où l’on définit au préalable la manière dont la donnée va être stockée et organisée avant de l’écrire dans l’entrepôt), alors que le Data Lake repose sur une « interprétation à lecture » (model on read, où les données brutes sont chargées sans traitement préalable puis elles sont relues et interprétées selon les besoins dans le Data Lake). Cette différence résulte en des projets et un système ainsi bien plus agiles, nécessitant moins de planification et de spécifications en amont, permettant une utilisation en cycle agile des données pour traiter un cas d’usage, puis un autre, autorisant l’ajout d’une nouvelle source de données sans travaux lourds au niveau du Data Lake… De plus, l’utilisation des technologies big data comme Hadoop change complètement la dynamique économique de ces projets : il est possible de commencer petit (en matériel et en logiciel) et de faire croître progressivement le dispositif supportant le Data Lake progressivement, avec le besoin (ajout de composants techniques, souscription de contrats de support pour les outils open-source, etc.). Bien loin du modèle onéreux historique des entrepôts de données ! Bien sûr, un gros Data Lake aura un coût certain, mais l’investissement sera adapté à sa taille et son usage.
Le Data Lake au service de la stratégie data de l’entreprise
Certaines entreprises se sont lancées directement dans la constitution d’un Data Lake. Et peuvent finir déçues ou en attentes des usages qui en sont faits. C’est pour cela qu’il est important de bien travailler sa stratégie data pour inscrire le Data Lake dans un projet d’entreprise.
Pour qu’une entreprise bénéficie des nombreuses opportunités offertes par le Data Lake, sa mise en place doit reposer, selon nous, sur trois étapes fondamentales…
1. L’identification des cas d’usage
Nous distinguons deux cas d’usage :
- Ceux qui visent l’amélioration des cas d’usages existants : en utilisant des nouvelles sources données internes ou externes (les navigations sur le site, les passages TV, la météo, etc.), des données plus fines, plus détaillées (les événements arrivant au fil de l’eau et non plus des agrégats), ou plus rapidement aussi (être alerté à la journée et non plus à la semaine, au mois),
- Ceux qui visent à innover par la donnée (comprendre des comportements par des données « proxy » ou fournir de nouveaux services par une exploitation de ces données).
Ces cas d’usage devront être priorisés selon différents critères comme leur impact économique, leur complexité de mise en œuvre, leur caractère spéculatif, etc.
2. La définition d’une roadmap
…Pour organiser les chantiers d’alimentation du Data Lake à partir des priorités définies pour les cas d’usage. Les premières sources de données collectées dans le Data Lake sont celles qui permettent de déployer les cas prioritaires.
3. Le choix de l’infrastructure
La baisse tendancielle du coût du stockage et la maturité des outils open source qui réduisent les coûts d’entrée, mais aussi la flexibilité d’intégration des données sont parmi les éléments favorables à l’apparition du Data Lake. Par ailleurs, l’évolution des mentalités vis-à-vis du Cloud Computing, que de nombreuses entreprises n’hésitent plus à utiliser, facilite aussi le déploiement de ce type d’architecture (on loue des capacités selon son besoin plutôt que d’investir lourdement dès le début du projet).
Pour mettre en place son Data Lake, l’entreprise dispose donc d’un large panel de solutions d’infrastructures reposant sur un hébergement interne ou externe, non managé ou managé, chacune ayant des incidences en termes de coûts mais aussi de besoin en ressources internes différents.
Les ressources humaines
Le Data Lake est habituellement exploitée par une équipe regroupant des compétences, encore rares, telles que :
- Des Data Engineers (ont plutôt un profil IT connaissant les technologies « Big Data »). Il y en a encore peu sur le marché, même si les profils BI s’y reconvertissent peu à peu.
- Des Data Scientists (ont plutôt un profil mathématique et statistique). Ce ne sont pas forcément les plus difficiles à trouver, sauf pour les plus expérimentés. L’engouement pour la data science et un marché de l’emploi porteur a fait naître beaucoup de vocations dans les filières de mathématique et de statistique.
- Des Data Architects, dont le rôle est de concevoir l’architecture technique supportant le Data Lake, en combinant les briques Lego de nombreux outils open-source ou non. La relative jeunesse de ces projets, la maturation des technologies, font de cette fonction un rôle clé pour éviter d’aller dans le mur des technologies.
- Des experts de la visualisation de données (avec des compétences de design de l’information et une capacité à programmer à l’aide des bibliothèques graphiques)
- Eventuellement des Data Stewards (pour maintenir les flux de données entrant et sortant du Data Lake), fonction encore peu présente et souvent assurée par des Data Engineers dans un mode devops.
- Enfin, des administrateurs système pour maintenir opérationnel les machines, réseaux, services, etc. nécessaires au bon fonctionnement du Data Lake.
Pour former ces ressources, il existe une offre particulièrement riche de MOOCs, que ce soit sur les challenges métier et techniques des big data, des introductions à la programmation, de l’utilisation du langage Python pour la Data Science (par exemple), des introductions et approfondissements autour du Machine Learning, etc.
Et la réglementation ?
Au niveau juridique, on constate un décalage entre la loi et le principe même du Data Lake. En effet, la collecte et le traitement de données repose sur un ensemble de principes juridiques bien définis : la finalité, la proportionnalité, la pertinence des données collectées (qui doivent être en lien avec l’activité), la conservation (limitée à la finalité), la transparence et le respect du droit des personnes.
Or, le concept même de Data Lake peut s’opposer à celui de la proportionnalité (on souhaite « tout collecter » dans le Data Lake), de la pertinence des données collectées (on espère que des données qui ne sont pas directement liées à un comportement l’expliqueront) et de la conservation de ces données (on ne prévoit pas forcément de se séparer des données les plus anciennes). Ces sujets doivent être traités avec le correspondant CNIL de l’entreprise (ou celui qui assume ce rôle), par exemple lors de l’étape de définition des cas d’usage. Cela peut nécessite une évolution ou une mise à jour des chartes ou conditions d’utilisation des services de l’entreprise, telles que présentées aux clients ou usagers.
En conclusion, le Data Lake est résolument un sujet à l’ordre du jour des réflexions des entreprises souhaitant aller de l’avant dans leur stratégie data. Si l’entreprise a pu définir un nombre de cas d’usage significatif pour sa donnée, cet outil sera généralement indispensable pour rationaliser la réalisation et le déploiement de ces cas d’usage. Dans le cas où l’entreprise est encore au stade de l’expérimentation ou de la preuve de concept des bénéfices d’une exploitation active de ses données, des approches plus limitées et très agiles suffiront alors. Le Data Lake viendra ensuite lors de la généralisation d’une stratégie data à toute l’entreprise.
Auteur : Hervé Mignot, Partenaire & Chief Scientist Officer chez Equancy
***
(c) ill. Shutterstock