Il n’y a pas aujourd’hui de définition académiquement reconnue du « Big Data ». Le Gartner propose cependant de définir un système Big Data à partir de quatre critères : volume, variété, vélocité, complexité.
Les volumes de données pris en compte dans les systèmes Big Data sont en effet aujourd’hui souvent très importants. Des entreprises gèrent déjà plusieurs Pétas de données, comme par exemple chez eBay qui a dans ses systèmes décisionnels plus de 60 Po.
Ces systèmes sont amenés à gérer une grande variété de données (structurées ou multi-structurées) : des données issues des systèmes opérationnels classiques (ERP, SCM, CRM, …), des textes, des web logs, des images, des vidéos, des données RFID et d’autres types de capteurs. Ces systèmes doivent capter, analyser, restituer des données avec une très grande vélocité. C’est par exemple le cas avec les systèmes de recommandations d’offres aux clients dans le commerce en ligne ou les médias sociaux.
Enfin, le traitement rapide de grands volumes de données variées n’est pas trivial et les programmes, les algorithmes nécessaires à mettre en œuvre sont rapidement complexes.
Bidg data, big buzz
L’expression Big Data fait l’objet d’un Buzz important. De nombreuses personnes l’utilisent surtout pour être dans le vent, mais il ne faut pas se tromper, il y a effectivement de nouvelles solutions qui sont apparues et commencent à être mises en œuvre. Ces solutions cherchent à répondre à de nouvelles demandes qui émanent souvent d’entreprises innovantes, souvent du monde du web et en particulier du e-commerce, de la communication et des médias sociaux. A noter que toutes les entreprises qui utilisent déjà des systèmes Big Data ne sont pas forcément des grands comptes. A titre d’exemple, LinkedIn ne fait que 250 Millions de $ de chiffre d’affaires et Facebook n’emploie que 3700 personnes.
Les moyens traditionnels, à commencer par les bases de données, ne sont pas bien adaptés pour répondre à toutes les demandes relatives au Big Data. Certains traitements d’exploitation des données multi-structurées sont difficiles à faire en SQL, il faut alors avoir recours à des programmes MapReduce pour paralléliser des logiques procédurales complexes, c’est en particulier le cas pour les séries chronologiques, les analyses de réseaux ou de cheminements. C’est par exemple le cas lorsque l’on cherche à trouver les successions d’interactions, d’étapes, qui ont menées à un événement particulier, par exemple l’achat d’un produit, la défection d’un client ou la prise d’un rendez-vous.
Ce qui ressort des témoignages des entreprises qui font déjà du Big Data, c’est qu’il n’y a pas de solution qui s’impose, qu’Hadoop n’est pas la solution miracle et présente des limites très gênantes dans certains cas. Celui qui veut se lancer va donc devoir aller chercher sur le marché tout un ensemble d’outils et développer lui-même les applications qui devront répondre à ses besoins. Des applications spécifiques pour faire du Big ETL, pour faire de la Big Exploration de données multi-structurées et réaliser des programmes analytiques gérant des Big Logiques. Au final, les données issues des approches Big Data sont généralement intégrées avec les données structurées traditionnelles issue des entrepôts de données d’entreprise classiques.
Le big data permet d’innover
Les Big Data peuvent être utilisées pour de nombreux usages métier souvent spécifiques à certaines industries. Cependant, d’une façon générale, elles peuvent pour la plupart des entreprises permettre d’innover en matière :
- d’analyse des relations sociales : analyser les réseaux sociaux pour découvrir les relations et les interactions visibles dans les données détaillées des transactions et des comportements en ligne.
- d’optimisation du marketing : analyser le comportement des utilisateurs, leurs actions à travers les recherches qu’ils font sur le web, mettre en lumière des influenceurs et leur participation à des diffusions virales, pour au final enrichir la connaissance des clients afin d’améliorer les actions marketing, en particulier sur les médias numériques.
- de détection des fraudes : analyser à la volée les opérations et les systèmes utilisés pour détecter, bloquer et empêcher les utilisateurs malveillants, les réseaux et les programmes engagés dans des processus frauduleux.
Bien que depuis plusieurs années des entreprises pionnières aient développés des approches Big Data conséquentes, il n’existe pas aujourd’hui de bonnes pratiques établies. De plus, comme les pionniers ont bien conscience de leur avance, ils communiquent peu, au contraire de nombreux offreurs qui tentent de pousser leur solution et créent une désinformation certaine.
Le manque de bonnes références est aussi renforcé par le fait qu’il y a un manque important de compétences, et qu’il va falloir du temps pour que les experts actuels du décisionnel se mettent à toutes les nouvelles technologies nécessaires pour répondre aux demandes en matière de Big Data. Concrètement, cela veut dire que les approches Big Data vont se développer lentement dans les entreprises, au rythme de la montée en compétence des ressources et de l’apparition de solutions plus packagées et plus conviviales.
Auteur : Michel Bruley, Directeur Marketing Emea de Teradata Aster