Big Data : la Statistique Appliquée 3.0?

Le phénomène Big Data est avant tout présenté comme une rupture technologique qui permet, à des coûts raisonnables, de traiter des données en masse de tous types avec une performance inimaginable il y a quelques années. Vient ensuite l’aspect culturel : « les décisions seront de plus en plus prises en connaissance de données », « la data devient une matière première », « les compétences analytiques seront nécessaires dans tous les domaines » etc…

Concernant les méthodes statistiques la littérature résume le changement en 2 points :

  • les nouvelles approches sont à la croisée de l’Informatique et de la Statistique; on parle de Machine Learning (auto-apprentissage) où les algorithmes génèrent plus ou moins tous seuls des modèles sur d’importants volumes de données
  • ces méthodes ne sont en fait pas nouvelles car le Machine Learning date des années 1960; ce retour sur le devant de la scène est dû au fait que ces techniques fonctionnent particulièrement bien sur de grandes quantités d’information

Ce raccourci concernant le traitement analytique du Big Data est, il me semble, plutôt juste; j’ai toutefois l’impression que le sujet est complexe et mériterait quelques précisions.

En effet si le Big Data n’impliquait que de dépoussiérer quelques vieilles méthodes le virage ne serait pas si compliqué à prendre pour les statisticiens et toute l’effervescence autour du sujet (notamment académique) ne serait pas justifiée. Ce que je vois autour de moi m’indique exactement l’inverse : des statisticiens en entreprise (dataminers) un peu perdus et un foisonnement de projets statistiques comme je n’en ai jamais vu (nouveaux outils, nouveaux algorithmes, formations, travaux de recherches etc…).

NB : l’exercice consistant à présenter l’évolution de la Statistique Appliquée à l’ère le Big Data est loin d’être facile, avec sans aucun doute de probables imprécisions dans les lignes ci-dessous. Toutes remarques ou compléments d’information sont donc plus que les bienvenus. Par l’adjectif « appliquée » j’entends l’utilisation opérationnelle, en opposition à la partie purement théorique.

Une histoire qui n’en est pas à sa première rupture

Gauss3

Les statistiques ont pour objectif d’être une aide à la décision. Que ce soit descriptif (qui sont mes clients? Sont-ils significativement différents de ceux de mes concurrents? etc…) ou prédictif (quels clients vont résilier leur contrat? quels seront les comportements d’achat l’année prochaine? etc…). Entre les recensements de l’Empire romain et la détection des indécis lors de la dernière campagne d’Obama le spectre opérationnel de cette science s’est considérablement élargi, avec quelques étapes notables.

La Statistique Appliquée 0.0 est celle, en gros, d’avant le XVIIème siècle où on compte pour recenser et connaitre ses forces et faiblesses : soldats, naissances, ventes etc…

Du XVIIème à la moitié du XXème la Statistique Appliquée 1.0 a connu une extraordinaire période de théorisation. Tout a démarré par des représentations graphiques (versus de simples tableaux de chiffres) et des calculs probabilistes simples (quelle rente viagère puis-je espérer d’ici 10 ans?). Au XIXème l’apparition de la fameuse loi normale (courbe de Gauss – permettant de modéliser les erreurs) a été fondamentale pour toute la théorie traditionnelle, notamment pour la statistique inférentielle qui a émergé au début du XXème (capacité à travailler à partir d’échantillons pour en déduire un résultat global).

La Statistique Appliquée 2.0 est née grâce à l’avènement de l’informatique dont la formidable capacité de calcul a permis d’élargir le champ d’application :

  • généralisation de tous les tableaux de bords divers et variés en entreprise
  • véritable explosion de l’Analyse De Données qui permet de comprendre et décrire des informations avec de nombreuses dimensions (son développement avait démarré au début du XXème mais l’informatique a rendu son exploitation possible)
  • utilisation « industrielle » de modèles prédictifs complexes (par exemple les régressions logistiques pour accorder ou non les prêts bancaires)
  • élargissement à des méthodes non traditionnelles et qui viennent plutôt de l’informatique (intelligence artificielle) : arbres de décision, réseaux de neurones, SVM etc…

Bref, la Statistique Appliquée s’est enrichie pour devenir du Datamining (littéralement exploitation de la data), tout cela grâce à l’informatique.

Une nouvelle mutation impulsée par les données

svm

La révolution technologique Big Data a pour conséquence de radicalement changer le paysage de la donnée : des quantités quasi sans limite, des sources et formats très divers, des bases irrégulières (renseignements partiels, pas toujours de qualité etc…) et une obsolescence beaucoup plus rapide.

Ce contexte induit 3 changements majeurs :

  • l’analyse prédictive devient simple et pertinente, son utilisation quotidienne va s’imposer dans les entreprises (quand un client est géolocalisé dans le terminal 2 de l’aéroport CDG il y a des chances qu’il parte à l’étranger)
  • cette analyse prédictive, par la nature même des nouvelles données, fonctionne mieux avec les méthodes non traditionnelles type Machine Learning
  • la précision d’une prévision dépendra presque plus de la richesse des sources que du modèle utilisé (cf article sur le concours SNCF où l’on ne parle que de sources de données!)

Philosophiquement le modèle change aussi : jusqu’à présent les données étaient récoltées pour nourrir des modèles statistiques, maintenant les modèles sont à réinventer/adapter pour exploiter au mieux les données disponibles.

Tout reste encore à construire

DataViz

Personnellement j’identifie 2 phénomènes émergents (mais peu cités) au cœur de ce changement.

Tout d’abord le fait qu’on oppose Statistique traditionnelle et Machine Learning ne durera pas éternellement. En effet, au-delà de l’effet mode, les statisticiens et mathématiciens se penchent intensément sur ces méthodes des années 60, en plus de les mettre au goût du jour elles vont être complétées et théorisées (quel que soit le temps que cela prendra).

Par ailleurs l’accent théorique est aujourd’hui mis sur l’aspect prédictif alors même que l’une des problématiques Big Data est la Visualisation des données (souvent citée comme le 4ème V du Big Data, cf article sur les 3V). Les statistiques descriptives (dont l’Analyse De Données) vont naturellement aborder ce sujet : comment décrire, visualiser et interpréter facilement ces nouvelles sources d’information? C’est d’ailleurs déjà le cas de fournisseurs de solution de Visualisation qui expliquent baser leur approches sur des modèles statistiques complexes (Qlik et son moteur d’indexation associative, MyDataBall et son moteur d’arborescences/corrélations).

 

En conclusion les changements induits par les nouvelles données bouleversent la façon de les exploiter, probablement au point d’y voir une rupture majeure. La Statistique Appliquée 3.0 marque le début de l’ère de la Data, avec un accent mis, pour l’instant, sur le prédictif. Bien sûr les méthodes prédictives actuellement à la mode ne sont pas récentes mais le changement est lourd d’une part car elles n’étaient quasiment pas exploitées jusqu’à présent et d’autre part car ça n’est que le début d’une période de travaux intensifs où de nouveaux modèles vont être établis pour s’adapter aux données disponibles.

Quelques liens intéressants : histoire de la Statistique par M. Dutarte, Statistiques et Big Data par Les Dieux de la Stat, Machine Learning et Data Mining

Publicités