La révolution Big Data est en marche…. mais de quoi parle-t-on?

Big Data se traduit littéralement par « Grosses Données » ou « Masse de Données. Cependant le sens de ces mots est réducteur car quand on parle du phénomène Big Data il s’agit en fait des (r)évolutions à 3 niveaux: les données disponibles sont en pleine mutation, les outils et méthodes de traitement doivent donc s’adapter, et enfin les usages qui en sont faits sont totalement en rupture avec l’existant.

 

Les données vivent une mutation sans précédent:

Bien entendu le volume de données existant connait une croissance très forte depuis le début de l’ère numérique (développement du web à la fin des années 90), ceci s’accélère et la croissance est exponentielle. Cependant le changement ne concerne pas que la quantité, en effet comme le précise Gartner (cabinet de conseil américain pionnier de la théorie sur le Big Data) la donnée a changé selon les 3 V: Volume, Variété et Vélocité. Au-delà de la quantité c’est donc aussi le type de données (fichiers, vidéos, images, blogs, média sociaux, objets connectés) et la fréquence d’enregistrement qui changent (temps réel pour un GPS par exemple ou achat vente d’espaces pub en quelques nanosecondes).

La littérature pousse parfois sur des 4ème ou 5ème V avec la Véracité (la quantité est parfois au détriment de la qualité) et la Valeur (les données deviennent une matière première et sont monétisables).

 

Les outils et méthodologies s’adaptent:

Les premiers à être confrontés à la problématique de la quantité de données furent les acteurs du web, les astronomes et la recherche médicale. Les solutions de traitement aujourd’hui les plus connues ont d’ailleurs une paternité chez Yahoo et Google. La parallélisation des calculs sur un réseau d’ordinateur, l’optimisation astucieuse de ses calculs (cf MapReduce) ainsi que la création de nouveaux langages (cf NoSQL) ont abouti aux solutions actuelles, la plus commune étant Hadoop. A noter que la révolution est aussi culturelle: Hadoop est opensource donc en libre accès avec des communautés de développeurs qui partagent gratuitement les résultats de leurs recherches.

Au-delà des technologies les méthodes statistiques doivent aussi évoluer; de manière assez étonnante on assiste au retours à des méthodes historiquement abandonnées par manque de précision. Depuis les années 2000 les statistiques ont beaucoup progressé dans la modélisation en cherchant à prévoir de la manière la plus parfaite possible (il faut trouver le modèle qui colle le plus à la réalité). Avec l’explosion des données il maintenant nécessaire (depuis environ 4-5 ans) d’intégrer la dimension « capacité à calculer », c’est pourquoi l’informatique et la statistique sont en train de se rapprocher. La méthode à la mode en ce moment est par exemple le « machine learning », méthode historiquement informatique (approche algorithmique qui améliore automatiquement le modèle avec l’arrivée de nouvelles observations, cela évite de tester toutes les combinaisons). Cette méthode existe depuis environ 50 ans mais ne donnait pas de résultats suffisamment pertinents faute de données en masse.

 

Les applications concrètes du Big Data sont innovantes

Il est impossible de faire un panorama complet des usages du Big Data, c’est d’ailleurs pourquoi on parle de révolution car le champ des possibles est quasi infini!

Il est toutefois possible de lister quelques domaines et quelques exemples intéressant d’utilisation du Big Data:

  • En santé:
    • la recherche génomique avance plus vite grâce à la capacité de traitement et de modélisation « Big Data »
    • l’épidémiologie aussi fait un bond en avant, sujet d’actualité avec le virus ebola (un outil Google Flutrends existe d’ailleurs, recherche de l’avancée d’épidémie virale grâce à la lecture géographique des mots clés tapés dans Google)
  • En marketing:
    • des sociétés comme Criteo permettent de définir instantannément la publicité qu’il faut vous afficher quand vous naviguez sur internet; pour cela ils se basent sur les cookies présents dans votre ordinateur mais prennent aussi en compte le coût d’achat de la bannière à l’instant T (Real Time Bidding) pour optimiser les dépenses
    • les assureurs vont pouvoir, grâce aux boitiers présents dans les voitures, accorder des tarifs réduits à ceux qui ont un comportement « bon conducteur »
  • En politique: lors de la dernière campagne présidentielle américaine le camps Obama a ciblé ses actions de porte à porte après avoir déterminé les foyers les plus indécis grâce au Big Data (profils socio-démographiques, données web etc…)

Ces quelques exemples sont évidemment loin d’être exhaustifs mais il y en aura d’autres! L’objectif du blog est de partager et décortiquer les exemples concrets d’usage Big Data.

Un commentaire sur “La révolution Big Data est en marche…. mais de quoi parle-t-on?

Laisser un commentaire