Bien souvent, la qualité des données est vue comme un frein, ou un obstacle pour les entreprises, alors même qu’elle se trouve au centre de leurs réflexions.
Aujourd’hui, la qualité des données est désormais à l’origine de nombreuses initiatives et de projets axés sur les données. De fait, il est devenu indispensable de mettre en place une stratégie de qualité des données au sein de sa société, mais force est de constater que cette étape peine à être complètement intégrée aux pratiques des entreprises. Il devient donc nécessaire de connaître et de maîtriser tous les aspects de ce processus pour parvenir à réaliser sa transformation data de manière efficace et ainsi devenir une organisation « data-driven ».
Obtenir la meilleure qualité de données
Si l’on aspire à obtenir efficacement une meilleure qualité des données, il est primordial de rendre le processus de qualité des données plus collaboratif en entreprise. En effet, alors que les différents métiers souhaitent de plus en plus reprendre la main sur leurs tâches, l’enjeu consiste à traiter et à gérer la qualité des données en équipe, afin d’allier compréhension des objectifs (apportés par les utilisateurs métiers) et résultats engendrés par l’utilisation des données (assurés par les équipes IT) à la gouvernance et au contrôle nécessaires. Dans cette optique, le niveau d’intégration et de communication du modèle de Google Suite ou d’Office 365, construit sur un grand nombre de passerelles et facile à utiliser pour les utilisateurs métiers, représente l’objectif à atteindre.
En outre, grâce à la mise en place de solutions en mode « self-service », la qualité des données a pu être normalisée et industrialisée, et les niveaux de collaboration en entreprise ont connu une nette amélioration. Ces solutions, telles que le data stewardship ou encore la data preparation, permettent aux utilisateurs d’avoir la main sur les données dont ils ont besoin, d’appliquer les règles nécessaires et de s’assurer de la disponibilité des données, tandis qu’en parallèle, les équipes IT s’occupent de la gestion des besoins de gouvernance et d’accès aux données. Néanmoins, devant la difficulté d’utilisation de certains outils data, il n’est pas rare de voir des utilisateurs se réfugier en terrain conquis – tel que la suite Office – dès qu’un obstacle se dresse sur leur chemin. Les organisations se retrouvent ainsi confrontées à des silos résultant principalement du manque de compréhension de la donnée, ou encore du manque d’initiatives visant à apporter davantage de « data literacy ».
Placer la donnée selon le contexte
Si, dans un monde idéal, les utilisateurs et les collaborateurs en charge du traitement des données n’auraient aucun mal à se rencontrer, la réalité est toute autre ; d’une part, les utilisateurs métiers comprennent « la langue de la data », mais d’autre part, les collaborateurs n’en maîtrisent pas les subtilités et se cantonnent aux processus de traitement, bien moins complexes à saisir. Pour pallier ce problème, instaurer une culture de la data constitue une stratégie idéale à mettre en place pour pouvoir enfin considérer les données comme des informations définies, car si les outils occupent une place fondamentale dans les projets de qualité des données, il est également essentiel de faire en sorte que les collaborateurs disposent tous d’une même compréhension de l’information.
Il est important de garder à l’esprit que la qualité des données varie selon le contexte. L’état des données est mesuré par des collaborateurs en fonction de divers facteurs (telles que la fiabilité et la précision par exemple) pour déterminer leur qualité, mais cela est rarement effectué de manière interne. Par exemple, dans la complétude de l’information, la donnée peut exister ou pas. Mais si la donnée n’existe pas, est-ce pour autant un problème ?
Prenons la situation suivante : la base de données clients comporte des informations et des champs « opt-in » et « opt-out ». D’une part, si le client est « opt-in », il sera possible de trouver, par exemple, son numéro de portable ; d’autre part, si le client est « opt-out », aucune information personnelle le concernant ne pourra être visualisée. C’est donc par son absence que la donnée est dite « valide » aux yeux de la loi sur la conformité des données. Le contexte autour de l’information rend ainsi l’interprétation de la complétude valable.
Dans la mise en contexte de la donnée, certains types d’outils et de technologies jouent un rôle-clé. C’est notamment le cas des métadonnées, qui sont exploitées via des outils de data inventory et de data cataloging ; grâce à elles, les utilisateurs sont en mesure de trouver la donnée, de savoir qu’elle existe et de la comprendre. Plus ces données sont nombreuses, plus la compréhension de la données – donc de l’information générée – sera haute.
Mais ces outils ne sont pas les seuls à jouer un rôle déterminant dans la mise en contexte de la donnée : les technologies de rule repository, de data preparation et de data stewardship permettent d’appliquer des règles et de changer une donnée dite « brute » en information contextualisée, à l’intention de l’utilisateur métier.
En d’autres termes, il est essentiel de comprendre la donnée en premier lieu afin de pouvoir la traiter par la suite comme un actif de l’entreprise à part entière.
Auteur : Patrick Peinoit, Principal Product Manager, Talend
(c) Ill. DepositPhotos