Big Data : la Statistique Appliquée 3.0?

Le phénomène Big Data est avant tout présenté comme une rupture technologique qui permet, à des coûts raisonnables, de traiter des données en masse de tous types avec une performance inimaginable il y a quelques années. Vient ensuite l’aspect culturel : « les décisions seront de plus en plus prises en connaissance de données », « la data devient une matière première », « les compétences analytiques seront nécessaires dans tous les domaines » etc…

Concernant les méthodes statistiques la littérature résume le changement en 2 points :

  • les nouvelles approches sont à la croisée de l’Informatique et de la Statistique; on parle de Machine Learning (auto-apprentissage) où les algorithmes génèrent plus ou moins tous seuls des modèles sur d’importants volumes de données
  • ces méthodes ne sont en fait pas nouvelles car le Machine Learning date des années 1960; ce retour sur le devant de la scène est dû au fait que ces techniques fonctionnent particulièrement bien sur de grandes quantités d’information

Ce raccourci concernant le traitement analytique du Big Data est, il me semble, plutôt juste; j’ai toutefois l’impression que le sujet est complexe et mériterait quelques précisions.

En effet si le Big Data n’impliquait que de dépoussiérer quelques vieilles méthodes le virage ne serait pas si compliqué à prendre pour les statisticiens et toute l’effervescence autour du sujet (notamment académique) ne serait pas justifiée. Ce que je vois autour de moi m’indique exactement l’inverse : des statisticiens en entreprise (dataminers) un peu perdus et un foisonnement de projets statistiques comme je n’en ai jamais vu (nouveaux outils, nouveaux algorithmes, formations, travaux de recherches etc…).

NB : l’exercice consistant à présenter l’évolution de la Statistique Appliquée à l’ère le Big Data est loin d’être facile, avec sans aucun doute de probables imprécisions dans les lignes ci-dessous. Toutes remarques ou compléments d’information sont donc plus que les bienvenus. Par l’adjectif « appliquée » j’entends l’utilisation opérationnelle, en opposition à la partie purement théorique.

Une histoire qui n’en est pas à sa première rupture

Gauss3

Les statistiques ont pour objectif d’être une aide à la décision. Que ce soit descriptif (qui sont mes clients? Sont-ils significativement différents de ceux de mes concurrents? etc…) ou prédictif (quels clients vont résilier leur contrat? quels seront les comportements d’achat l’année prochaine? etc…). Entre les recensements de l’Empire romain et la détection des indécis lors de la dernière campagne d’Obama le spectre opérationnel de cette science s’est considérablement élargi, avec quelques étapes notables.

La Statistique Appliquée 0.0 est celle, en gros, d’avant le XVIIème siècle où on compte pour recenser et connaitre ses forces et faiblesses : soldats, naissances, ventes etc…

Du XVIIème à la moitié du XXème la Statistique Appliquée 1.0 a connu une extraordinaire période de théorisation. Tout a démarré par des représentations graphiques (versus de simples tableaux de chiffres) et des calculs probabilistes simples (quelle rente viagère puis-je espérer d’ici 10 ans?). Au XIXème l’apparition de la fameuse loi normale (courbe de Gauss – permettant de modéliser les erreurs) a été fondamentale pour toute la théorie traditionnelle, notamment pour la statistique inférentielle qui a émergé au début du XXème (capacité à travailler à partir d’échantillons pour en déduire un résultat global).

La Statistique Appliquée 2.0 est née grâce à l’avènement de l’informatique dont la formidable capacité de calcul a permis d’élargir le champ d’application :

  • généralisation de tous les tableaux de bords divers et variés en entreprise
  • véritable explosion de l’Analyse De Données qui permet de comprendre et décrire des informations avec de nombreuses dimensions (son développement avait démarré au début du XXème mais l’informatique a rendu son exploitation possible)
  • utilisation « industrielle » de modèles prédictifs complexes (par exemple les régressions logistiques pour accorder ou non les prêts bancaires)
  • élargissement à des méthodes non traditionnelles et qui viennent plutôt de l’informatique (intelligence artificielle) : arbres de décision, réseaux de neurones, SVM etc…

Bref, la Statistique Appliquée s’est enrichie pour devenir du Datamining (littéralement exploitation de la data), tout cela grâce à l’informatique.

Une nouvelle mutation impulsée par les données

svm

La révolution technologique Big Data a pour conséquence de radicalement changer le paysage de la donnée : des quantités quasi sans limite, des sources et formats très divers, des bases irrégulières (renseignements partiels, pas toujours de qualité etc…) et une obsolescence beaucoup plus rapide.

Ce contexte induit 3 changements majeurs :

  • l’analyse prédictive devient simple et pertinente, son utilisation quotidienne va s’imposer dans les entreprises (quand un client est géolocalisé dans le terminal 2 de l’aéroport CDG il y a des chances qu’il parte à l’étranger)
  • cette analyse prédictive, par la nature même des nouvelles données, fonctionne mieux avec les méthodes non traditionnelles type Machine Learning
  • la précision d’une prévision dépendra presque plus de la richesse des sources que du modèle utilisé (cf article sur le concours SNCF où l’on ne parle que de sources de données!)

Philosophiquement le modèle change aussi : jusqu’à présent les données étaient récoltées pour nourrir des modèles statistiques, maintenant les modèles sont à réinventer/adapter pour exploiter au mieux les données disponibles.

Tout reste encore à construire

DataViz

Personnellement j’identifie 2 phénomènes émergents (mais peu cités) au cœur de ce changement.

Tout d’abord le fait qu’on oppose Statistique traditionnelle et Machine Learning ne durera pas éternellement. En effet, au-delà de l’effet mode, les statisticiens et mathématiciens se penchent intensément sur ces méthodes des années 60, en plus de les mettre au goût du jour elles vont être complétées et théorisées (quel que soit le temps que cela prendra).

Par ailleurs l’accent théorique est aujourd’hui mis sur l’aspect prédictif alors même que l’une des problématiques Big Data est la Visualisation des données (souvent citée comme le 4ème V du Big Data, cf article sur les 3V). Les statistiques descriptives (dont l’Analyse De Données) vont naturellement aborder ce sujet : comment décrire, visualiser et interpréter facilement ces nouvelles sources d’information? C’est d’ailleurs déjà le cas de fournisseurs de solution de Visualisation qui expliquent baser leur approches sur des modèles statistiques complexes (Qlik et son moteur d’indexation associative, MyDataBall et son moteur d’arborescences/corrélations).

 

En conclusion les changements induits par les nouvelles données bouleversent la façon de les exploiter, probablement au point d’y voir une rupture majeure. La Statistique Appliquée 3.0 marque le début de l’ère de la Data, avec un accent mis, pour l’instant, sur le prédictif. Bien sûr les méthodes prédictives actuellement à la mode ne sont pas récentes mais le changement est lourd d’une part car elles n’étaient quasiment pas exploitées jusqu’à présent et d’autre part car ça n’est que le début d’une période de travaux intensifs où de nouveaux modèles vont être établis pour s’adapter aux données disponibles.

Quelques liens intéressants : histoire de la Statistique par M. Dutarte, Statistiques et Big Data par Les Dieux de la Stat, Machine Learning et Data Mining

Publicités

La révolution Big Data est en marche…. mais de quoi parle-t-on?

Big Data se traduit littéralement par « Grosses Données » ou « Masse de Données. Cependant le sens de ces mots est réducteur car quand on parle du phénomène Big Data il s’agit en fait des (r)évolutions à 3 niveaux: les données disponibles sont en pleine mutation, les outils et méthodes de traitement doivent donc s’adapter, et enfin les usages qui en sont faits sont totalement en rupture avec l’existant.

 

Les données vivent une mutation sans précédent:

Bien entendu le volume de données existant connait une croissance très forte depuis le début de l’ère numérique (développement du web à la fin des années 90), ceci s’accélère et la croissance est exponentielle. Cependant le changement ne concerne pas que la quantité, en effet comme le précise Gartner (cabinet de conseil américain pionnier de la théorie sur le Big Data) la donnée a changé selon les 3 V: Volume, Variété et Vélocité. Au-delà de la quantité c’est donc aussi le type de données (fichiers, vidéos, images, blogs, média sociaux, objets connectés) et la fréquence d’enregistrement qui changent (temps réel pour un GPS par exemple ou achat vente d’espaces pub en quelques nanosecondes).

La littérature pousse parfois sur des 4ème ou 5ème V avec la Véracité (la quantité est parfois au détriment de la qualité) et la Valeur (les données deviennent une matière première et sont monétisables).

 

Les outils et méthodologies s’adaptent:

Les premiers à être confrontés à la problématique de la quantité de données furent les acteurs du web, les astronomes et la recherche médicale. Les solutions de traitement aujourd’hui les plus connues ont d’ailleurs une paternité chez Yahoo et Google. La parallélisation des calculs sur un réseau d’ordinateur, l’optimisation astucieuse de ses calculs (cf MapReduce) ainsi que la création de nouveaux langages (cf NoSQL) ont abouti aux solutions actuelles, la plus commune étant Hadoop. A noter que la révolution est aussi culturelle: Hadoop est opensource donc en libre accès avec des communautés de développeurs qui partagent gratuitement les résultats de leurs recherches.

Au-delà des technologies les méthodes statistiques doivent aussi évoluer; de manière assez étonnante on assiste au retours à des méthodes historiquement abandonnées par manque de précision. Depuis les années 2000 les statistiques ont beaucoup progressé dans la modélisation en cherchant à prévoir de la manière la plus parfaite possible (il faut trouver le modèle qui colle le plus à la réalité). Avec l’explosion des données il maintenant nécessaire (depuis environ 4-5 ans) d’intégrer la dimension « capacité à calculer », c’est pourquoi l’informatique et la statistique sont en train de se rapprocher. La méthode à la mode en ce moment est par exemple le « machine learning », méthode historiquement informatique (approche algorithmique qui améliore automatiquement le modèle avec l’arrivée de nouvelles observations, cela évite de tester toutes les combinaisons). Cette méthode existe depuis environ 50 ans mais ne donnait pas de résultats suffisamment pertinents faute de données en masse.

 

Les applications concrètes du Big Data sont innovantes

Il est impossible de faire un panorama complet des usages du Big Data, c’est d’ailleurs pourquoi on parle de révolution car le champ des possibles est quasi infini!

Il est toutefois possible de lister quelques domaines et quelques exemples intéressant d’utilisation du Big Data:

  • En santé:
    • la recherche génomique avance plus vite grâce à la capacité de traitement et de modélisation « Big Data »
    • l’épidémiologie aussi fait un bond en avant, sujet d’actualité avec le virus ebola (un outil Google Flutrends existe d’ailleurs, recherche de l’avancée d’épidémie virale grâce à la lecture géographique des mots clés tapés dans Google)
  • En marketing:
    • des sociétés comme Criteo permettent de définir instantannément la publicité qu’il faut vous afficher quand vous naviguez sur internet; pour cela ils se basent sur les cookies présents dans votre ordinateur mais prennent aussi en compte le coût d’achat de la bannière à l’instant T (Real Time Bidding) pour optimiser les dépenses
    • les assureurs vont pouvoir, grâce aux boitiers présents dans les voitures, accorder des tarifs réduits à ceux qui ont un comportement « bon conducteur »
  • En politique: lors de la dernière campagne présidentielle américaine le camps Obama a ciblé ses actions de porte à porte après avoir déterminé les foyers les plus indécis grâce au Big Data (profils socio-démographiques, données web etc…)

Ces quelques exemples sont évidemment loin d’être exhaustifs mais il y en aura d’autres! L’objectif du blog est de partager et décortiquer les exemples concrets d’usage Big Data.