L’analyse de la mobilité individuelle, enjeu majeur dans la réflexion sur l’aménagement des territoires, nécessite une collecte de données parfois contraignante du point de vue des dispositifs humains à mobiliser et des budgets associés.
Or, la donnée passive collectée via les opérateurs téléphoniques ou les opérateurs de la mobilité représente un enjeu clé pour compléter la compréhension de la mobilité.
Basé sur des données croisées d’opérateurs téléphoniques ou d’autres données de calage, l’approche d’un référentiel unique multi-sources est une première brique expérimentale pour mieux estimer les déplacements. Une grande partie des données sont des données « automatiques » collectées par les téléphones portables, les GPS… mais cela n’exclut pas, pour partie, l’intégration de données de cadrage issues d’enquêtes plus classiques.
Une démarche d’analyse spatiale qui respecte l’individu-citoyen
Tous les déplacements sont évidemment anonymes et déduits d’une manière particulière qui empêche bien toute reconnaissance individuelle. Ce point est un point clef. Néanmoins, le produit (par des méthodes d’équilibrage et de pondération spécifiques) permet d’estimer :
- Les déplacements sur un territoire
- Les volumes, les fréquences
- Les temps de trajet
- Les modes de transport
- Le sens des déplacements, etc
Une approche intégrée, garantie de la représentativité de l’ensemble
Le maître-mot est l’intégration. Pris séparément, chaque producteur de données passives (opérateur télécom, données GPS, etc) pense que les données qu’il centralise constituent une manne mais, malheureusement, chaque acteur peut difficilement prétendre être représentatif de l’ensemble des pratiques compte tenu des spécificités des clients de chacun.
La particularité de l’approche proposée est donc d’utiliser certaines données de certains opérateurs à des moments-clefs, afin de compenser ce manque de représentativité, et de corriger les effets de bord ou les sous-utilisations.
Nous adoptons une démarche de recherche participative : c’est bien la réunion des opérateurs télécom, d’opérateurs privés et publics de la mobilité, de centres d’expertise scientifique (universitaires, organismes scientifiques comme le CESP) et évidemment de clients qui maximise les chances de trouver des solutions satisfaisantes à partir de ces données. Il s’agit donc d’un projet de co-création par l’ensemble des acteurs, dans lequel nous apportons notre expertise et notre neutralité.
Les enjeux du projet
Une des problématiques de la « big data » de déplacement est d’appliquer le (ou les…) « bon » redressement sans dénaturer la donnée elle-même :
- Comment intégrer au modèle des données parfois partielles ?
- Comment prendre en compte les données sociodémographiques au sens large ?
- Comment gérer les contraintes de calage issues de jeux de données hétérogènes et parfois contradictoires ?
Dans les faits, l’un des enseignements à date de notre démarche est qu’aucune approche n’aboutit à une technique de redressement et donc à des résultats satisfaisants si on ne multiplie pas les opérateurs fournisseurs de données de déplacement. C’est là un des paradoxes de la donnée volumétrique : elle ne devient pertinente que bien agrégée, sur les bonnes dimensions.
Une volumétrie de données pouvant atteindre 400 millions de déplacements différents en moyenne par jour !
Pour arriver à travailler sur des fichiers « big data » d’opérateurs télécom ou de données de mobilité (même échantillonnées de manière pertinente), il faut être conscient de l’importance des volumes de données.
La solution réside dans des techniques telles que la solution DmrP (Data Market Research Platform), qui permet de stocker en toute sécurité des volumes de données très importants. Les données sont ensuite accessibles à la fois par des outils de modélisation spatiale ou des techniques de représentation géographique.
La prise en compte de ce paramètre volumétrique est un point capital dans la fiabilisation de la démarche, pour pouvoir facilement manipuler des données issues de sources diverses et hétérogènes.
L’utilisation du « machine learning »
Pour arriver à détecter, dans le flux de données, des phénomènes comme le «mode de déplacements », ou estimer quotidiennement les déplacements des portables éteints, un certain nombre d’algorithmes auto-apprenants sont mis en œuvre. Les résultats sont tout à fait encourageants.
La démarche de création du référentiel des déplacements est basée sur une prise de connaissance de manière assez exhaustive du plus grand nombre possible de travaux réalisés sur les « big data » de localisation, avec une remontée dans des sources passées souvent très intéressantes de par leur questionnement. C’est une démarche de recherche qui aboutit à un référentiel mais le référentiel n’en est pas que l’unique résultat : le gain en expertise sur la mobilité est très important.
Quelles perspectives pour ce référentiel ?
Beaucoup de questionnements à chaque étape, une relativisation systématique des résultats obtenus, l’appel au jugement par des tiers sont l’essence-même de notre démarche qui ne sur-promet pas l’utilisation qui peut être faite de ces données, mais qui se base simplement sur le constat que l’on ne pourra et que l’on ne doit pas s’en passer.
Ce que l’on retient c’est que la donnée seule et isolée ne parvient pas à combler les lacunes de mesure et de représentativité, et qu’il faut la sélectionner avec précaution puis la mutualiser avec les bonnes sources complémentaires pour parvenir à la rendre « explicite » et « fiable ». C’est une vision antinomique vis-à-vis du discours « big data » du moment, mais c’est un fait…
Auteur : Fabien Guillemot, Directeur d’activité BVA Services et Thierry Vallaud Directeur de BVA Data Sciences
***
Un article de notre dossier Etudes Marketing
(c) ill. Shutterstock – Business People Rush Hour Walking Commuting City Concept