Tu seras Data Scientist ma fille!

Le 20 novembre dernier s’est tenu Data Job, « Plus grand salon de rencontre des métiers de la Data ». Ce salon fut l’occasion d’observer les profils des étudiants et des recruteurs mais aussi de vérifier que la pénurie annoncée de Data Scientist se concrétisait.

Sans surprise les recruteurs principaux étaient des consommateurs historiques de données, je parle notamment les 4 sponsors: Axa (qui recrute pour son Data Lab), EY (aussi pour son Data Lab), Deloitte (audit et conseil) et enfin Quantmetry (conseil en statistiques et Big Data). Les profils des étudiants étaient pour partie issus de l’informatique  mais surtout très majoritairement du monde de la statistique/mathématique (ENSIMAG, UMPC, ENSAE, Ecole des Ponts, ENSAI, ENSTA, ISUP etc…).

Par ailleurs les différentes conférences qui se sont tenues en parallèle du salon ont montré que le secteur recrutait, et qu’il y avait de grandes difficultés à pourvoir tous les postes (Safran, Voyages SNCF, Crédit Mutuel Arkea).

Alors, comme le présente la Harvard Business Review, les Data Scientist ont ils le job le plus sexy du 21ème siècle (data scientist, the sexiest job of the 21st century)?

Personnellement « sexy » je n’en sais rien mais « d’avenir » c’est certain, en effet tous les secteurs et tous les domaines de compétences axent de plus en plus leur activité « en connaissance des données », je veux dire par là que tous ont besoin d’experts capables de manipuler et interpréter les données. Ceci est vrai en marketing pour connaître les clients et le marché, vrai en ressources humaines (recrutement et gestion de carrière), vrai sur les métiers coeurs de la banque (finance), de l’assurance (actuariat) etc…

Donc oui à titre très personnel je pense que si ma fille souhaitait devenir Data Scientist ça ne serait pas forcément un mauvais plan! La question restant « mais qu’est-ce qu’un Data Scientist et comment le devient-on? ».

Nota Bene: au départ je souhaitais appeler cet article « Tu seras Data Scientist mon fils », mais d’une part je ne voulais pas plagier l’article du même nom (article myrhline), d’autre part les femmes représentent moins de 10% des membres des comité de direction (cf article lexpress) – absurdité révoltante dans une société soit disant paritaire…

Le Data Scientist, une utopie?

datascience

La nature du Big Data est pluridisciplinaire: stocker et exploiter les données (informatique) pour les analyser ou modéliser (statistique) afin de les restituer et éclairer les décisions (business analyst). C’est ainsi que le mythe du Data Scientist qui sait tout faire est né.

Soyons clair, celle (ou celui) qui est capable faire tout cela avec un niveau expert sera effectivement un profil rare, recherché (et donc cher) correspondant à la définition complète du Data Scientist. Ces profils auront vocation à se multiplier, mais peut-on raisonnablement croire que tous auront la compétence et surtout l’envie d’être autant multi expertise? Il y aura (comme il en existe déjà) des experts complets de haut niveau qui pourront assumer une telle palette de compétences, par contre autour d’eux c’est probablement toute une structure complète qui sera mise en place avec des profils experts mais moins complets. Je pense par exemple à Axa qui affichait (lors de DataJob) des recrutements complémentaires pour son Data Lab: Data Scientist, Architectes SI, Business Projects Managers.

Les Data Scientist complets seront donc la clé de voute des activités Data des entreprises, alors peut-être même encore plus recherchés que ce que l’on pense.

Quels profils et formations pour devenir Data Scientist?

FormationDataScience

Une question fréquente, et structurante pour la formation, est de savoir de quel univers vont principalement venir les Data Scientist: plutôt informatique, statistique ou généraliste?

Cette question ne peut donner lieu à une réponse catégorique, il semble toutefois se dessiner une filière privilégiée bien que non exclusive: les statistiques et notamment les statistiques appliquées (Datamining, Business Intelligence etc…). Pour ce type de profil devenir Data Scientist signifie ajouter la compétence informatique d’extraction et manipulation de la donnée ainsi que l’algorithmie moins traditionnelle (machine learning). Les recruteurs et formateurs (notamment des responsables de Master Spécialisés Big Data) confirment ce point en expliquant qu’aujourd’hui la plupart des formations en informatique n’abordent que trop peu les mathématiques théoriques, la marche purement académique à franchir est donc souvent trop grande.

Il est possible de répartir les formations selon 3 familles:

  • celles qui créent une filière Data Science, écoles d’ingénieurs ou universités en systèmes d’information ou statistiques; cela peut passer par un ajustement du cursus (ENSAE, Telecom Nancy, UMPC) ou par des formations de spécialisation Bac+6 (ENSIMAG/EMSI, ENSAI) – sauf erreur de ma part toutes ces formations ont été annoncées, au plus tôt, fin 2013 pour démarrage en 2014, ces nouveaux profils ne sont pas encore sur le marché de l’emploi (ou alors en stage)
  • celles, étalées sur 12 à 24 mois, qui s’adressent à des publics soit en fin d’étude soit déjà en poste; par exemple sous forme de Master Spécialisé (Telecom Paris – précurseur du sujet dont c’est déjà la 2ème rentrée – EM Grenoble ou encore ENSAE) ou alors sous forme de certificat (Actuariat Big Data de l’Institut des Actuaires ou Certificat analyse données massives du CNAM – les 2 démarrent tout juste)
  • et enfin celles de quelques jours ou quelques semaines pour impulser la culture Big Data au sein des entreprises: l’institut CEPE (10 jours assez techniques), l’institut Cap Gemini (sur 2 jours) ou data-business.fr qui propose une formation de 2 semaines sur le sujet

Cet univers étant en plein expansion la liste n’est sûrement pas exhaustive, vos commentaires sont les bienvenus pour l’enrichir.

Voici les liens des formations citées: Filière Data Science ENSAE, Filière Data Science Telecom Nancy, Filière Data Science UMPC, Bac+6 ENSIMAG, Bac+6 ENSAI, MS Telecom Paris, MS EM Grenoble, MS ENSAEFormation Actuariat Data Science, Certificat Big Data CNAM, Formation continue CEPE, Formation continue Cap Gemini, Formation continue Data-Business.

Un métier de passionnés avant tout

kaggle

Quel que soit le profil d’origine où la formation suivie les bons Data Scientist auront tous un point commun: la passion de la donnée, curieux de tout savoir sur son cycle de vie: d’où elle vient? comment elle est générée? avec quelle qualité? comment la traiter? comment l’utiliser? comment en interpréter l’analyse? comment la restituer de manière efficace?

Répondre à ces questions demandent une forte curiosité et un haut niveau d’ouverture sur les outils, méthodes et règles métiers; nous sommes donc loin du cliché du statisticien/informaticien scotché derrière son PC.

J’ajouterais aussi qu’aujourd’hui pour se distinguer les plus motivés participent aux concours sur Kaggle.com ou DataScience.net; concours où des entreprises mettent des données en ligne (anonymes bien sûr) et lancent des challenges pour trouver les meilleurs modèles prédisant tels ou tels évènements, les vainqueurs peuvent toucher quelques milliers d’euros. Participer à de tels concours n’est pas anodin, cela demande des jours d’investissement et l’envie de tester de nombreuses méthodes innovantes, illustration parfaite de la curiosité et de l’implication nécessaire pour être un Data Scientist complet.

 

En conclusion je dirais que ce métier, comme souvent évoqué dans la littérature, a un très bel avenir devant lui. Par contre les équipes de Data Science seront plutôt composées de multiples profils SI, Stat et Chef de Projets avec, en leur sein, des piliers rares aux compétences transverses: les Data Scientists. Concernant les formations elles vont continuer à se multiplier dans les années à venir; le véritable enjeu n’étant finalement pas de former de nouveaux diplômés (le démarrage est réel bien que tardif) mais de transformer les entreprises pour qu’elles puissent les accueillir avec des structures et des profils plus séniors prêts à les encadrer.

Quelques liens intéressants: article formations e-orientation, article formations campus.lemonde, article formations data-business.frblog Uman Partners sur les problématiques RH

Publicités

Le Big Data? Mais ça change quoi pour moi?

De nombreux articles présentent aujourd’hui le Big Data comme une nouvelle révolution industrielle au même titre que l’arrivée de la vapeur (début du XIXème), de l’électricité (fin du XIXème) et de l’informatique (fin du XXème). D’autres, un peu plus mesurés, situent ce phénomène comme la dernière étape de la troisième révolution industrielle qui est en fait celle de « l’information » (cf article des Echos et blog Soft Computing). Quoi qu’il en soit ces considérations présentent le Big Data comme une source de bouleversement profond de la société.

Ce bouleversement attendu commence à faire l’objet d’une réelle prise de conscience dans les entreprises françaises, la preuve, le « Big Data Index » décolle: 43% des DSI (informatique) ont un projet sur ce thème en 2014 contre 7% en 2012 (cf article)… « Et alors? » vous répondra votre voisin(e), cousin(e) ou meilleur(e) ami(e) (pas vous car vous lisez ce blog!). En France une personne moyenne (au sens statistique du terme) a environ 40 ans, vit dans une ville de taille moyenne et est employée avec un diplôme niveau Bac ou moins (cf Article du Point). Bref, les dataminers, enseignants chercheurs, architectes SI, consultants ou responsables en ressources humaines sont évidemment une partie infime de la population… Ainsi, même avec toute la passion du monde pour en parler ce sujet du Big Data paraît très lointain pour la plupart des gens et c’est normal.

Toujours en me référant aux usages moyens, les français sont majoritairement actifs sur les réseaux sociaux, envoient presque 100 sms par mois et passent plusieurs heures sur internet tous les jours donc la question des données personnelles et de leur usage les inquiéte. Mais si le Big Data se limite à de l’espionnage sur internet pour toujours plus de publicité alors la vie quotidienne ne risque pas d’être bouleversée.

On peut distinguer 3 types d’impacts du Big Data sur notre vie de tous les jours, du plus « cosmétique » ou au plus profond.

Nous serons (sommes) épiés pour être mieux servis

Internet-Explorer-support

Mieux connaître ses clients ou prospects est un enjeu majeur pour toutes les entreprises. Le volume et la diversité des informations utilisées sont actuellement minimes par rapport au champ des possibles:

  • pour commencer il semblerait que 70% des données internes à une entreprise ne sont pas exploitées (si par exemple vous avez répondu à une enquête de satisfaction il y a peu de chance que vos réponses soient présentes dans votre dossier client – cf article)
  • les informations que d’autres entreprises possèdent (vos abonnements à des magazines, vos cartes de fidélité de supermarché, vos adresses email etc…) sont souvent disponibles à l’achat mais pas systématiquement intégrées
  • les données publiques (open data) sont aujourd’hui peu présentes dans les analyses des entreprises, elles concernent rarement directement les citoyens mais plutôt leurs voitures, leurs maisons, leurs quartiers etc… (fichier des immatriculations, cadastre, santé etc…)
  • les données issues du web, vos fameux « cookies » (ce que vous avez fait sur internet les mois précédents), sont peu utilisés même si ceci est en train de rapidement changer

Savoir qui vous êtes, ce qui vous intéresse et ce que vous êtes en train de faire permettra de vous proposer la bonne offre ou le bon service au bon moment: une nouvelle promotion pour les pull GAP enfants alors que ça fait 3 fois que vous hésitez à les prendre, une assurance voyage alors que vous êtes à l’aéroport (votre banque le sait car vous avez retirez de l’argent au distributeur d’Orly), les services de déménagement « luxe » parce que vous venez de vendre votre maison et que vous êtes abonnés à « décoration maison haute gamme » etc…

Bref, on ne peut décemment pas parler de révolution de la société mais il faut quand même garder en tête que toutes ces techniques permettent concrètement aux entreprises d’être efficaces commercialement, les enjeux business sont colossaux. Ainsi, ne pas lancer de tels projets revient à laisser de l’avance aux concurrents et risquer de perdre des parts de marché à court terme. Il n’y a de toute façon pas de mystère: si une société comme Criteo (retargeting publicitaire sur internet) connait un tel succès et que de nombreuses agences média et/ou start up proposent d’exploiter vos cookies c’est qu’ils ont une valeur indiscutables. A noter que ces traitements ont été rendus possibles à grande échelle, de manière industrielle et en temps réel grâce aux technologies du Big Data.

Nous bénéficierons d’avancées majeures dans les domaines scientifiques

smrt-grids1

Certains domaines sont plus consommateurs d’analyse de données que d’autres. Je pense bien sûr à la santé, l’astronomie, l’énergie et tout ce qui comporte des flux (télécommunication, tourisme etc…). Sans réécrire les articles précédents sur la santé, le tourisme ou la mobilité il apparaît que le Big Data a déjà débloqué des situations qui accélèrent les progrès sur des sujets qui nous touchent à notre quotidien. Voici deux exemples intéressants :

  • dans la recherche génomique: la nouvelle puissance de calcul a permis de diviser par 10 000 le temps et l’argent qu’il fallait pour modéliser le génome d’une personne (aujourd’hui c’est faisable en 24h pour moins de 1000$). La modélisation d’un génome complet permet d’analyser les micros détails qui différent d’un individu à l’autre afin d’en déduire les prédispositions génétiques à des maladies type Alzheimer, Cancer x ou y; nous n’y sommes pas encore tout à fait mais cela devrait arriver rapidement (notamment avec les moyens que Google a mis sur ce thème là – cf article blog santé)
  • dans le secteur de l’énergie IBM met en avant des solutions de réseaux électriques intelligents (qui peuvent éteindre des appareils inutilement allumés ou optimiser les ressources nécessaires en fonction des usages – cf article Forbes) mais aussi des aides au déploiement de réseaux et d’offres (meilleur endroit pour une éolienne, tarification dynamique pour tel profil de consommateur etc… – cf IBM)

Ce type de travaux auront, à terme, des impacts certains sur notre durée de vie, notre consommation d’énergie, nos modes de déplacements etc… Ceci n’est cependant pas simple à matérialiser lors d’une discussion de tous les jours, d’une part car nous n’en sommes qu’au début et d’autre part car il y a toujours eu des progrès dans le domaine de la santé ou de l’énergie, cela pourrait donc s’apparenter à une simple suite logique; alors qu’en réalité l’accélération est brutale.

Les objets connectés seront omniprésents dans notre vie

NEST

Les sujets Big Data et Objets Connectés sont souvent, et c’est compréhensible, mélangés dans les articles ou conférences. Cet amalgame est inévitable car les Objets Connectés émergent grâce aux technologies Big Data, par ailleurs le Big Data se nourrit des données issues des Objets Connectés toujours plus nombreux… On est donc un peu face à l’histoire de la poule et l’œuf.

En fait les objets connectés existent depuis très longtemps, on peut par exemple citer les solutions de Machine To Machine qui ont vu le jour il y a plus de 15 ans: des flottes de camions équipés de boitiers avec une carte sim pour suivre leurs localisations, temps de pause etc… ou bien des distributeurs de boissons eux aussi équipés en cartes sim pour informer de l’état des stocks. Depuis 15 ans les choses évoluent à la fois au niveau du matériel (boitiers plus petits, capteurs plus nombreux et précis) mais aussi grâce à l’arrivée du Big Data au milieu des années 2000. La capacité à stocker et traiter l’information en masse donne LA valeur complémentaire qui permet le décollage de ces objets: la donnée brute est analysée en temps réel pour devenir un service aux utilisateurs (prévenir une panne dans une voiture, avertir d’un risque santé etc…).

Voici un exercice très personnel consistant à réaliser une liste du top 5 des objets qui, j’en suis persuadé, feront partie de notre vie quotidienne dans les années à venir:

  1. Hors top 5 (car déjà là) = les smarphones (44% de pénétration chez les plus de 11 ans – cf journal du net), tablettes, et même « box » sont des objets connectés, toujours plus présents dans nos poches ou foyers…
  2. D’ici environ 2 ans l’ensemble des nouvelles voitures seront connectées, cela permettra de localiser une voiture, analyser la conduite, détecter les pannes à venir, intervenir immédiatement en cas d’accident, voire même prêter sa voiture à distance grâce à son smartphone. La « Google Car » qui se conduit toute seule est, elle, encore plus révolutionnaire et sera testée au Royaume Unis en 2015 (donc très bientôt en France – cf FranceTv)
  3. Dès 2015 les habitations françaises vont élargir leurs équipements: thermostats intelligents couplés à des détecteurs de fumées et d’intrusion (attention Nest – Google – est arrivé en France avec ses incroyables produits! Ils devraient bientôt largement communiquer); un autre exemple avec Linky qui sera installé d’ici 2020 partout en France (compteur communicant et intelligent d’EDF)
  4. Les « wearables » (à porter sur soi) devraient connaitre un beau succès parmi certaines populations « qui aiment le contrôle »: bracelet santé (pouls, sommeil, nombre de pas, calories etc…), montre apple, baskets et autres équipements sportifs pour suivre les performances (raquette de tennis, club de golf, chaussures de foot)
  5. Les villes seront progressivement équipées de capteurs pour suivre l’activité et améliorer la qualité de vie: parking (occupation), déchets (niveau des poubelles), trafic (état de la circulation) etc…
  6. Et de nombreux autres objets qui auront des usages spécialisés: lunettes « GoogleGlass » (utiles pour une professionnel qui veut partager ce qu’il voit, sur un chantier ou lors d’une opération médicale) et brosse à dents connectée (par exemple l’excellente Kolibree pour motiver ses enfants de manière ludique)

Débloquée par le Big Data, l’émergence des objets connectés va réellement bouleverser notre quotidien, et cela très rapidement. Autour de ces objets apparaissent de nouveaux services et de nouveaux usages, dont la plupart restent à inventer.

 

En conclusion je dirais que si les termes Big Data restent relativement flous, et qu’il n’est pas simple d’y associer du concret dans notre vie de tous les jours, on peut toutefois constater que l’impact va au-delà du simple ciblage commercial sur internet. En effet les objets connectés commencent à envahir nos quotidiens et vont réellement transformer notre façon de vivre, ceci grâce bien sûr aux progrès technologiques dans ce domaine (capteurs notamment) mais aussi grâce à la capacité de stockage et de traitement des mégadonnées. Sans Big Data les bracelets, thermostats et autres boitiers dans les voitures ne connaîtraient probablement pas le même succès.

Quelques liens intéressants: article InformationWeek sur le Big Data, étude ATKearney sur la destruction des business model avec le Big Data, l’impact du Big Data en astronomie par TheAtlantic.

Pas de vacances pour le Big Data

Parmi les secteurs où la France excelle, il y en a un dont le pays truste la première place du classement mondial depuis longtemps (au moins aussi loin que remonte wikipedia) : celui des pays les plus visités au monde. En 2013 la France se classe loin devant les Etats Unis et l’Espagne et a même connu une hausse de 2% des entrées touristiques par rapport à 2012. A la vue des 15 millions d’entrées d’avance on peut même imaginer que la première place lui est promise encore quelques années minimum (cf article du Monde).

La satisfaction des touristes est un levier majeur de croissance du secteur

Pour maintenir cette première place, voire augmenter le nombre de touristes (84,7 millions en 2013, Laurent Fabius – ministre des affaires étrangères – a mentionné un objectif à 100 millions), il apparaît nécessaire de comprendre ce qui attire les touristes d’aujourd’hui et de demain.

La littérature mentionne souvent la richesse culturelle (dont la gastronomie), la beauté et la diversité des paysages, l’authenticité de Paris et des petits villages ; bref, on parle d’acquis dont il « suffit » de maintenir la notoriété et l’image pour attirer des touristes (cf article Le Point).

Un autre point rarement mentionné (car difficile à comparer entre pays) est la satisfaction des touristes et donc leur propension à revenir. Une étude 2012 réalisée par le ministère du redressement productif a montré que 12% des visiteurs venaient pour la première fois, mais que ce ratio correspondait aussi à peu près aux touristes déçus qui pensaient ne pas revenir. Ainsi la croissance de la « part de marché » touristique de la France passera par une meilleure expérience sur place et donc une satisfaction accrue, les acquis ne pourront pas suffire (cf étude du ministère).

Le Big Data est L’outil d’avenir pour une expérience client réussie

Sans surprise le Big Data s’est donc immiscé dans le secteur touristique, et même relativement tôt par rapport à d’autres domaines. Les outils actuels d’exploitation des données de masse servent à 3 types d’actions :

  • Permettre aux touristes de mieux préparer leur séjour ou voyage
  • Permettre, à froid, aux professionnels du tourisme de mieux comprendre les profils, attentes et appréciations des touristes afin de préparer les saisons suivantes
  • Permettre, en temps réel, une gestion personnalisée des touristes et des flux

 Mieux préparer un séjour grâce au Big Data

Farecast

Il est possible de citer de très nombreux exemples de services « Big Data » innovants et améliorant l’expérience AVANT le séjour. En voici 2 qui me semblent particulièrement intéressants.

FareCast fut le premier service qui, pour un vol donné, avait scanné et historisé tous les prix en fonction de la date de réservation et pouvait vous dire si c’était le bon moment pour acheter votre billet, et si non précisait alors le meilleur prix que vous pouviez espérer. FareCast était limité aux vols intérieurs des Etats-Unis et a été racheté par Microsoft (FareCast a été intégré dans Bing Travel). En France ce type de service est actuellement proposé par Kayak.fr. Ce comparateur de vols vous permet d’acheter vos billets et a enrichi son service avec la tendance tarifaire estimée (un taux de confiance de la prédiction est même affiché).

Un autre service digital innovant pour le voyage est celui de Zaptravel. Ils inversent la façon de préparer un voyage : on passe de la version classique « je veux aller à tel endroit à telle date puis j’organise mes activités » à une approche « définissez votre envie, quelle qu’elle soit » (« je veux voir le plus beau coucher de soleil », « j’adore les vieilles pierres »). Lorsque vous avez listé vos envies Zaptravel analyse la sémantique et reconstitue des propositions de séjours affichées sur une carte. Testez le ! (personnellement je trouve le concept assez génial mais l’offre ne m’a pas semblé si pertinente pour l’instant).

Mieux connaître et comprendre les touristes grâce au Big Data

FluxVision2

La connaissance clients (comportements et attentes) est une des applications majeures du Big Data, l’utilisation sur la cible touristique était donc toute naturelle.

L’exemple de la solution FluxVision fournie par Orange est marquant : sur la base des informations collectées par le réseau téléphonique, Orange est en mesure de reconstruire des cartes de flux touristiques. Ceci bien sûr avec les caractéristiques les plus utiles : nationalité, durée du séjour, lieu du séjour etc… Les professionnels du tourisme (logement, restauration, transport, loisirs) savent alors qui va où pendant combien de temps, ils peuvent ensuite adapter leur offre (en quantité et en prix).

En complément l’écoute des réseaux sociaux permet de mieux connaître les centres d’intérêt et les avis des touristes (en tout cas de ceux qui sont actifs sur les réseaux sociaux). Une étude (cf article e-tourisme) a par exemple montré que les plus connectés étaient les américains (50% des messages sur internet) et qu’ils faisaient majoritairement référence à la Tour Eiffel et au Louvre, globalement de manière très positive. Il a aussi été constaté que les Chinois citaient le musée du Louvre en premier avec de nombreuses citations négatives surtout à cause des vendeurs de faux billets à l’entrée. Disneyland Paris est le monument non culturel le plus évoqué dans les conversations, surtout pas les européens qui y vivent des expériences très positives. Ces quelques exemples un peu caricaturaux sont déclinables à l’échelle de TOUTES les structures touristiques. Un tableau de bord très complet de l’e-réputation du tourisme en France devrait même voir le jour à travers le projet Tourinflux, tableau de bord à destination de tous les acteurs du secteur pour pousser la connaissance des avis des visiteurs.

Une gestion personnalisée en temps réel des touristes et des flux

bluesmart

Ce 3ème changement lié au Big Data est un peu plus dans l’anticipation car les solutions techniques ne sont pas encore tout à fait déployées. Je ne prends cependant aucun risque car techniquement tout est réalisable et le gain à la fois pour les clients et pour les professionnels sera important. Voici quelques exemples (déjà existant pour la plupart) pour une expérience touristique sur place enrichie :

  • Connaître l’état de remplissage des hôtels en temps réel pour les voyageurs qui n’ont pas encore de réservation – ceci fonctionne bien via une simple application pour les velib, pourquoi pas pour les hôtels ?
  • La valise connectée pour ne plus perdre ses bagages (Bluesmart va en commercialiser une bientôt avec de nombreuses fonctionnalités innovantes – AirFrance va aussi lancer une solution de suivi de valise via eTrack)
  • Une application qui permettrait à tous les acteurs de votre voyage (transport, restauration, hôtel) de savoir où vous êtes et s’il y a un imprévu (valise perdue, retard etc…) – avec votre accord préalable bien sûr
  • Des solutions de tarification dynamique pour répartir les flux touristiques ; je parle d’appliquer basiquement ce que font les transporteurs (SNCF, compagnies aériennes) pour répartir les voyageurs à l’ensemble des lieux touristiques ; ceci demanderait une centralisation de toute l’information des flux et un traitement en temps réel

 

Finalement, comme dans presque tous les secteurs, le Big Data va enrichir la connaissance des touristes, de leurs attentes et des flux, tout ceci à des fins d’amélioration de leur expérience. En enchantant les visiteurs ils reviendront plus facilement et l’attractivité « naturelle » de la France permettra d’accroitre significativement le nombre d’entrées. La bonne nouvelle est que le poids du tourisme sur notre PIB (6,5% en France vs 4% sur l’ensemble de l’Europe) nous oblige à avancer sur le sujet et fait du tourisme un des précurseurs du Big Data à la française.

Quelques liens intéressants : article de VeilleTourisme sur les applications concrètes du Big Data, description de FluxVision par ETourisme, article sur Kayak par LechoTouristique.

Big Data, le remède miracle?

S’il y a un domaine où le Big Data est particulièrement attendu c’est bien celui de la santé. En effet on parle ici de la capacité à exploiter des données en masse et de tous types, notamment pour des usages prédictifs et en temps réel. Quand on sait que 80% des données médicales sont absentes des bases de données classiques car non structurées (notes, radios, comptes-rendus cliniques etc…), mais qu’elles ont une pertinence scientifique majeure alors on imagine bien qu’il y a de la matière première pour le Big Data et que les utilisations potentielles sont nombreuses (source IBM).

Les exemples les plus fréquemment cités concernent la prévention, les traitements en eux même et enfin le coût global de la santé qui, en diminuant fortement,  augmenterait l’accès aux soins.

Une prévention (de masse et individuelle) accrue

google_flu_trends

L’utilisation d’algorithmes prédictifs sur de grandes quantités de données médicales (ou pseudo médicales) a déjà été illustrée à de nombreuses reprises, voici les 3 exemples que je trouve les plus marquants:

  • Google Flu Trends (littéralement Tendances Grippe): Google a développé un service qui analyse les mots clés tapés dans son moteur de recherche afin de déterminer quand et où les épidémies sont en train de se propager. L’outil a fait ses preuves en 2010 car il était beaucoup plus réactif que le dispositif classique alimenté par les remontées des médecins. On s’aperçoit cependant depuis 2011 que les épidémies sont souvent surestimées; cela reste toutefois un pur outil Big Data qui représente une véritable aide à la prévention contre la grippe (lien outil).
  • En donnant accès à leurs données personnelles en temps réel (via un téléphone ou un bracelet connecté qui mesure votre activité, sommeil, pouls etc…) certaines population à risque (diabétiques, asthmatiques etc…) peuvent être monitorées à distance et recevoir des conseils ou alertes si besoin (la startup mhealthcoach fait par exemple beaucoup parler d’elle grâce à son appli mobile)
  • Plus fou encore  (voire effayant): la recherche génomique a profité des avancées technologiques pour réduire par 10000 le temps et l’argent nécessaire pour modéliser le génome d’une personne. Nous rentrons donc dans une ère où demain il sera probablement possible, pour moins de 1000$, de voir son génome analysé avec la possibilité de détecter des schémas augmentant ses chances d’avoir une maladie X ou Y, ceci dans l’optique de les prévenir au maximum (type cancers – cf article sur Base Line Study de Google).

Des soins plus efficaces

dare13_frth_Thumbnail_2x

Au-delà de la prévention, une fois la pathologie détectée, le parcours médical lui-même (et les traitements qui le composent) peut être optimisé sur la base des connaissances data.

Connaïtre et comprendre les mécanismes en jeu lors de soins (telle molécule a tel effet etc…) est et restera essentiel, cependant le Big Data propose d’enrichir cela avec des constats « factuels » basés sur de grandes quantités d’observations: les personnes avec tel profil et telles constantes qui ont eu tel traitement ont eu tel résultat. Le Danemark s’est par exemple équipé de la solution IBM Big Data pour centraliser les données de soins et améliorer l’efficacité du système, ils présentent cela à la fois comme un outil d’analyse a posteriori mais aussi comme une aide en temps réel pour les professionnels de santé (cf communiqué de presse).

Cette utilisation-là du Big Data a toutefois un prérequis lourd: les données doivent être accessibles, partagées et centralisées sans quoi il n’y aura pas de vision complète d’un patient et les bénéfices potentiels resteront sans suite. Attention par « partagées et centralisées » je ne dis pas qu’elles doivent être nominatives (l’anonymat semble éthiquement incontournable). La situation actuelle, notamment en France, est complexe car il semblerait que la sécurité sociale possède à peu près toutes ces données mais ne les partage pas ou peu pour l’instant (même de manière anonyme) et ne laisse donc pour l’instant pas beaucoup de place à des idées extérieures pour analyser tout cela et innover. Ceci évoluera peut être avec l’arrivée d’Henri Verdier en tant que Chief Data Officer France (i.e. responsable de toutes les données de l’état – cf article).

 Des dépenses en baisse pour un accès plus large

healthcare_rising_costs

Cet axe-là apparait plutôt dans un second temps mais semble aussi le plus vertueux.

D’une part la centralisation et l’analyse de l’ensemble des données de santé devraient permettre une prévention et des soins plus efficaces, nous venons de le voir. Ceci aura un impact direct sur le coût de la santé, qui dit coût en baisse dit mécaniquement coût de l’assurance en baisse (notamment les mutuelles qui ne reversent pas de dividende) et donc accès facilité pour les populations à plus faible niveau de vie. Tout cela semble un peu utopiste et reste à prouver mais donne envie d’y croire.

D’autre part, et pour cela je me base sur la vision du très sérieux cabinet McKinsey, les payeurs (malades, assurances privés, sécurité sociale, employeurs) devraient avoir accès à de plus en plus d’informations pour objectivement juger de la valeur d’un soin, d’un établissement ou même d’un médicament. Les données pourraient par exemple montrer que les patients prenant le médicament X ont trop souvent recours à un second traitement, ou que les personnes atteintes de telle ou telle maladie très particulière allant se faire soigner dans un établissement généraliste mettent 4 fois plus de temps à guérir que si elles allaient dans un établissement spécialisé. Bref, cette vision de la valeur des soins incitera l’état, les assureurs et tous les employeurs qui assurent leurs salariés à orienter vers les soins les plus efficaces. On pourrait très bien imaginer demain une assurance refusant de rembourser un médicament qu’elle juge inefficace (bien sûr légalement ça ne serait pas si simple mais l’idée est là). Au-delà d’aider les professionnels à s’améliorer le Big Data permettra aussi aux payeurs d’agir de manière forte pour baisser le coût de la santé.

 

En conclusion il semblerait bien qu’une fois les barrières réglementaires levées (sur le partage et l’accès aux données) le Big Data pourrait réellement impacter en profondeur le domaine de la santé, d’ailleurs on peut voir que des solutions existent (nombreuses start up ainsi qu’IBM) et que certains ont déjà enclenché le virage (la recherche génomique, des états comme le Danemark cité plus haut ou le Canada). J’insiste aussi sur un point fort de la plupart des exemples trouvés sur le sujet: oui les données de santé devront s’ouvrir pour que tout cela arrive MAIS jamais il n’est question d’en supprimer le côté anonyme sans accord explicite de l’individu.

Quelques liens intéressants: l’infographie santé Orange, la vision IBM, l’étude très complète et passionnante de McKinseyarticle de l’Express, très bon article Des Echos sur la santé 3.0.

Big Data, le top 3 des idées reçues

Comme toute évolution le Big Data est source de fantasmes, fantasmes parfois positifs mais la plupart du temps très négatifs; je parle ici des peurs ou du mépris liés à l’incompréhension du phénomène.

Si, bien sûr, les craintes générées par ce Big Data « tout puissant » sont probablement exagérées on ne peut toutefois pas dire qu’elles sont toutes sans fondement, ca serait beaucoup trop simple et totalement utopiste. Voici les 3  idées reçues les plus fréquemment rencontrées, à tort ou à raison…

Le Big Data c’est une mode

Elus buzzword (mot qu’on utilise sans savoir ce qu’il signifie vraiment) de l’année 2013 dans la catégorie Nouvelles Technologies, les termes « Big Data » sont évidemment très à la mode. De nombreuses initiatives et services autour de ces solutions existent, c’est d’ailleurs tout l’objet de ce blog (ressources humaines, sport, cuisine, relation client, cinéma etc…), la question est donc de savoir si cet engouement va durer et si dans quelques années le Big Data sera toujours d’actualité ou bien s’il sera déjà oublié.

Sans vouloir être catégorique je pense sincèrement qu’on parle ici d’un phénomène profond qui va bien au-delà de l’effet mode. Oui les fournisseurs de logiciels (IBM ou SAP) ainsi que les cabinets de conseil (EY, Cap Gemini etc…) font du Big Data une nouveauté « fer de lance » pour vendre leurs services, mais 3 points tendent à montrer le vrai intérêt du sujet:

  • cette « mode » date de 2010 aux Etats Unis et s’amplifie d’année en année (le nombre de postes de Chief Data Officer a doublé entre 2012 et 2013 – cf Gartner)
  • en France, une étude à paraître précise que si la part des grosses organisations qui ont un projet concret de Big Data est inférieure à 1/3 on constate toutefois que plus de la moitié pensent se lancer dans ce type de démarche, de nets progrès sont attendus pour l’année prochaine
  • les projets Big Data sont beaucoup moins coûteux que les projets classiques de base de données (au moins 4 fois moins), beaucoup plus rapides à implémenter (au moins 4 fois plus) et surtout ouverts pour les futures évolutions (ceux qui ont travaillé sur des projets CRM décisionnel savent qu’habituellement cela engage sur au moins 5 à 10 ans!)

Bref, la tendance venue des US ainsi que la nature même du Big Data (moins cher, rapide et évolutif) me laisse penser que le Big Data sera une norme, pas une mode. Je tiens toutefois à préciser que les technologies Big Data (notamment Hadoop) ne sont pas complétement matures (encore quelques soucis à corriger) donc le marché pourrait évoluer dans les années à venir; le concept va s’ancrer dans les moeurs mais rien ne garantit que les outils seront les mêmes qu’aujourd’hui.

Le Big Data c’est Big Brother

BDBB

Cette idée reçue est la plus régulièrement évoquée quand on parle de Big Data. Il est clair que la digitalisation de nos modes de vie génère des informations sur tous nos actes: achats, communications, déplacements, navigation web, réseaux sociaux, bracelet connectés, soins etc… Quasiment toutes nos activités laissent une trace quelque part qui est, la plupart du temps, reliable à notre identité. Donc oui le digital peut laisser penser à un système qui surveille tous nos faits et gestes. Par ailleurs le Big Data permet maintenant de tout stocker et de tout analyser alors évidemment que le Big Data c’est Big Brother.

La vraie question est double : « jusqu’où exactement cela peut aller? » et « est-ce un problème? ».

En théorie la législation (notamment en France avec la CNIL) est claire: chaque collecte de données doit faire l’objet d’une autorisation de la part de l’utilisateur et on doit lui expliquer à quoi cela va servir. En pratique tout le monde accepte les conditions générales de Facebook sans les lire… Serions-nous alors condamnés à être trackés et « vendus » sans avoir notre mot à dire? Aujourd’hui je pense qu’il faut séparer 2 aspects de notre vie numérique pour répondre à la première « vraie » question ci-dessus (« jusqu’où exactement cela peut aller? »):

  • parmi les usages nativement numériques (internet, réseaux sociaux, mails, télécommunications, e-commerce etc…) il n’y aura un jour quasiment pas de limite à la collecte des données et leur utilisation. Le seul moyen de maîtriser ceci pour un utilisateur sera d’être préparé et éduqué : un profil public sur un réseau social est accessible à tous, notamment un employeur potentiel donc attention à bien gérer soit le contenu soit les accès
  • parmi les usages qui ne sont pas nativement numériques la législation va être plus stricte et devrait mieux nous protéger: votre dossier médical est secret et ne pourra pas être vendu à une assurance maladie, de même personne ne pourra vous obliger à dire dans quel parc vous aimez emmener vos enfants jouer. Ces usages de la vie quotidienne seront probablement étudiés par d’autres biais (géolocalisation du mobile, dépenses en pharmacie etc…) mais cela sera plus long, plus complexe et moins précis

Quant à la question « est-ce un problème? » je ne peux pas répondre, cela dépend en fait de chacun. Ce qui est certain c’est que la tolérance est beaucoup plus grande pour les usages digitaux (plus personne ne s’offusque des publicités ciblées sur internet qui prennent en compte vos dernières visites) alors que pour les usages non digitaux la tolérance des utilisateurs restent à prouver; on peut par exemple citer les offres « pay how you drive » des assureurs américains qui existent depuis plusieurs années mais qui ne sont pas (encore?) un franc succès (vous payez en fonction de votre conduite telle qu’analysée par un boîtier connecté dans vote véhicule).

Le Big Data c’est utiliser les données des réseaux sociaux

J’ai gardé cet a priori fréquent pour la fin car la réponse est simple: non, non et non, le Big Data ne concerne pas que des données des réseaux sociaux (ni du web de manière plus générale).

En fait il faut se rappeler que le Big Data c’est la capacité à stocker, préparer et exploiter des données de masse, par masse on entend « trop volumineuses pour les outils qu’on avait avant ». L’application du Big Data sur des données internes aux entreprises est donc très souvent une des premières utilisations. L’article sur Metlife illustre bien ce propos: cet assureur américain avait trop de données (et trop éparpillées) pour avoir 1 fiche client unique regroupant toutes les informations utiles (les informations personnelles, les derniers contacts etc…), les conseillers clients perdaient donc du temps en cherchant sur différents outils ce dont ils avaient besoin. Le Big Data a ainsi permis, en quelques mois, de regrouper toutes les données dans un « lac » puis sur une fiche « 360° » pour gagner en efficacité et satisfaction client.

Un autre exemple est celui de la (récente) société Captain Dash qui propose aux entreprises des tableaux de bord visuels et ergonomiques pour mieux piloter leur activité; ceci grâce au Big Data. Captain Dash accéde aux données de son client, les injecte dans un « Lac » puis construit des reporting à partir de ce Lac. Ceci est simple à mettre en oeuvre et performant niveau informatique grâce aux nouvelles approches Big Data.

Bien entendu les données externes (notamment du web) pourront apporter des informations peut être utiles aux entreprises mais le Big Data n’est pas du tout limité à cela!

 

En conclusion les idées reçues sur le Big Data sont bien naturelles mais pas toutes justifiées. Les idées « C’est une mode » et « C’est les réseaux sociaux » sont fausses, peu de chance de se tromper de ce côté-là. Par contre l’aspect Big Brother ne peut clairement pas être simplement balayé, il y a là un vrai risque et beaucoup d’incertitudes pour l’avenir; il vaut alors peut être mieux accompagner ce développement (notamment avec un cadre légal) que tenter de le bloquer au risque d’être finalement complétement débordé.

Un Chief Data Officer, mais pour quoi faire ?

La nomination, le 16 septembre dernier, d’Henri Verdier comme « Administrateur général des données » de l’Etat, a mis le poste de Chief Data Officer (en version anglaise) sous le feu des projecteurs. Henri Verdier a pour responsabilité la bonne connaissance, diffusion et exploitation des données produites par l’Etat. Ses « pleins pouvoirs » sur le sujet lui permettront d’accéder à toutes les informations afin de proposer des évolutions (législatives s’il faut) pour en améliorer la qualité, la cohérence et l’accessibilité : quelles bases sont accessibles à l’extérieur et par qui ?

Petit aparté pour ceux qui peuvent penser (et c’est bien naturel) qu’on ne parle là que de quelques fichiers INSEE : en fait pas du tout, la quantité et variété des données publiques accessibles (open data) sont gigantesques. A titre d’exemples on peut citer le référencement de tous les professionnels de santé (dont les tarifs) accessible sur Ameli.fr, ou encore les informations des cartes grises issues de la préfecture centralisées dans la base AAA (caractéristiques d’un véhicule via l’immatriculation), ou enfin les informations géographiques administratives (cartes et cadastres). Bien gérer les données publiques est donc un point majeur pour l’Etat, point structurant pour les nombreuses entreprises qui les utilisent – dans les exemples cités je pense aux assurances santé (base médecins), aux réparateurs automobiles (bases véhicules) ou agents immobiliers (cadastres).

Ainsi l’Etat a jugé nécessaire la création d’un tel poste, grande première en Europe. Les spécialistes ont unanimement salué cette décision qui, a minima, illustre une prise de conscience de l’importance du sujet.

Cette tendance à vouloir mieux maîtriser et surtout mieux utiliser les données est arrivée du secteur privé avec l’avènement du Big Data. L’augmentation exponentielle du volume d’informations, la grande variété maintenant disponible et les nouveaux usages qu’on peut en faire (cf les précédents articles) poussent chacun à « optimiser la valeur » tirée des données. Les sources pouvant être internes (fichiers clients par exemple) ou externes (issues du web par exemple).

Un Chief Data Officer pour « gouverner » la donnée

Les entreprises ayant récemment enclenché des démarches autour d’une utilisation plus efficace de leurs données (Big Data ou non) constatent toutes que le sujet ne concerne plus une seule direction (Systèmes d’Information, Marketing, Business Intelligence etc…) mais bien à toute l’entreprise.

Par ailleurs ces nouveaux sujets confirment aussi que la maîtrise de la donnée est essentielle : comment est-elle produite ? Quelles règles de gestion ? Quelle qualité ? Quelle fraîcheur ? Qui peut y accéder et comment ? Quelle bonne utilisation en faire ? Autant de questions qui ne méritent pas juste d’être posées mais bien résolues de manière pérenne. Je veux dire par là, par exemple concernant la fiabilité, qu’il ne s’agit pas de simplement vérifier 1 fois que tout est bon mais bien de mettre en place un système continu du pilotage de la qualité.

La donnée devient donc un actif (qui a une valeur) transverse avec la nécessité d’en assurer la bonne maîtrise et exploitation dans le temps. Assez naturellement se pose alors la question « mais qui est responsable de la bonne maîtrise et exploitation de cet actif transverse ? ». Dans la plupart des structures classiques la réponse serait, aujourd’hui, « un peu tout le monde et surtout personne ». Bien sûr certains produisent la donnée (notamment les équipes SI), d’autres l’utilisent (par exemple les analystes ou les statisticiens) mais personne n’est responsable de bout en bout pour toute l’entreprise.

De là est née la fonction de Chief Data Officer, on dit qu’il « gouverne » ou « manage » la donnée. Son rôle est d’organiser la mise à disposition et la bonne exploitation de données riches et fiables (internes et externes) ; ceci dans une optique de création de valeur pour l’entreprise.

CDO

Un profil très complet difficile à trouver

Les exemples de nomination de Chief Data Officer se multiplient en Europe (Orange, AXA, BNP etc…) alors que la pratique est déjà bien instaurée aux US, Gartner prévoit même que 25% des grandes organisations auront un CDO dès 2015 (article Gartner).

Pour autant ce type de postes reste encore assez exceptionnel en France (85% des CDO sont aux US ou au UK), le profil du CDO n’est donc pas encore formaté et dépend bien sûr des attentes des organisations.

Voici les tendances qui se dégagent du profil type :

  • Une expérience solide et une légitimité qui lui permettent de siéger au comité de direction : la donnée est stratégique et transverse, cela étant difficilement conciliable avec un rattachement à une direction existante
  • Une triple compétence : business (vision stratégique), data (angle Systèmes d’Information) et analytique

Les « nouveaux » CDO viennent donc généralement soit de la DSI (Systèmes d’Information) soit du monde de l’analyse (marketing quantitatif, statisticiens, analystes financiers etc…). A noter qu’en 2013 dans le monde 26% des CDO étaient des femmes, soit 2 fois plus que parmi les CIO (i.e. Directeur Systèmes d’Information) ; c’est donc dramatiquement bas mais quand même un peu moins pire…

Ceci est bien sûr une tentative d’ébauche de portrait, le sujet étant nouveau le profil type évoluera très probablement dans les années à venir.

multitasking

Le Chief Data Officer n’est pas un magicien, en tout cas pas tout seul…

Pour remplir ses missions un Chief Data Officer doit aller au-delà de la simple vision stratégique et opérer de manière très concrète sur l’enrichissement, la qualité, l’accessibilité et l’exploitation de la donnée.

Ce n’est bien sûr pas lui-même qui réalisera des extractions, du nettoyage, la rédaction d’un catalogue des bases ou encore des modèles statistiques innovants. Il s’appuiera pour cela sur des ressources internes qui, toujours pour des raisons de transversalité, peuvent difficilement appartenir à une direction qui n’est pas dédiée au sujet data. Ces ressources sont en fait constituées de « Data Scientist », terme aussi très à la mode suscitant fantasmes et nouvelles vocations.

Les Data Scientist sont le bras armé du Chief Data Officer ; en synthèse il s’agit idéalement d’experts en statistique et informatique (base de données) avec une excellente capacité à comprendre et traduire les besoins des utilisateurs des données (marketing, analystes business etc…).

En théorie les Data Scientist passent :

  • Un quart de leur temps avec les fonctions « métiers »: comprendre leurs besoins et leur apporter des réponses sous forme de données et analyses
  • La moitié de leur temps à extraire et préparer des données
  • Un quart de leur temps à analyser les data et développer des modèles statistiques

En pratique, à court terme, cela reste à prouver car oui ces profils existent s’avèrent d’une grande valeur (ex ingénieurs informatique ou statisticiens reconvertis via des Master ou des passages en Cabinets de Conseil) MAIS nous n’en sommes qu’aux balbutiements, il faudra vraiment confronter cela à la réalité.

 

En conclusion il apparait que la prise en compte croissante du Big Data dans les organisations les pousse à se poser des questions organisationnelles sur la « gouvernance de la donnée ». La mise en place d’un Chief Data Officer armé d’une équipe de Data Scientist semble la réponse théorique couramment envisagée même si concrètement très peu d’entreprises françaises ont encore sauté le pas. Le manque de recul me fait rester prudent sur l’efficacité garantie de ce type de structure ; j’y crois toutefois assez fort car les exemples venant, encore une fois, des Etats Unis sont assez concluants (les postes de CDO et Data Scientist connaissent l’explosion attendue).

Quoi qu’il en soit à très court terme les entreprises françaises vont être confrontées à un double défi : mettre en place une gouvernance de la donnée (CDO ou non) tout en faisant face à une pénurie de compétences sur ces métiers (les formations en Data Science commencent à peine à émerger : les quelques « anciennes » type Master Telecom Paris datent de 2012-2013).

Bref, à suivre dans les mois et années qui viennent…

 

Quelques liens intéressants: le CDO France, l’article des Echos sur le CDO France, un site dédié au nouveau métier CDO, la vision IBM du CDO, le dossier très complet de Cap Gemini sur le sujet, article de Uman Partners sur CDO

Big Data, appelez-le « Coach »

Les parisiens prenant le métro n’ont pas pu louper la campagne d’affichage « Descendre 1 station avant = 1400 pas », campagne qui fait la promotion d’un bracelet connecté. Le business des objets connectés du type bracelet, montre, ou autres capteurs d’activité, est en plein essor. Ces objets, via les informations qu’ils restituent, vous incitent à vous dépenser voir même vous dépasser.

Du suivi personnalisé allant jusqu’au coaching

Nike+, créé en 2006, est une belle illustration de ce phénomène, le service connait une très forte croissance depuis quelques années. En France 4 produits sont proposés : application running, montre « sport » connectée, application coach personnel et le récent bracelet Fuelband. Ce dernier se présente comme le « moyen intelligent, simple et fun d’être encore plus actif » avec le slogan « Motivé. Partout. Tout le temps ». Nike+, en 2013, revendiquait quasiment 20 millions d’utilisateurs dans le monde!

Nikeplusproducts

Bref, si certains pensaient que l’accompagnement de l’activité sportive ou quotidienne (nombre de pas, sommeil etc…) par des objets connectés était juste un effet de mode, les dernières tendances montrent clairement qu’il y a un marché captif pour ces usages et que les produits ne sont pas du tout déceptifs.

Au-delà du monitoring de l’activité on assiste aussi à l’émergence du coaching personnel plus pointu. C’est par exemple le cas pour le golf avec la solution Swing Tip, un capteur à clipser sur votre club de golf qui analyse votre mouvement (votre swing). Ce capteur est proposé par la société Mobicoach qui propose aussi des e-cours de golf durant lesquels vos coups sont décortiqués en vidéo live par un coach. Swing Tip coûte 100$ et envoie sur votre iphone le décryptage de votre swing (vitesse, angle etc…) pour vous aider à progresser.

SwingTip

Ces solutions technologiques sont bien entendu basées sur la capture, le traitement et l’analyse de données en temps réel. Le Big Data n’est pas loin. Ceci dit, pour être un peu puriste, la quantité de données envoyée par un bracelet connecté sur un iphone pour réaliser un tableau de bord n’est pas énorme: pas besoin de lac de données, de parallélisation des calculs ou même de machine learning pour suivre une activité quotidienne. Il ne s’agit donc pas de Big Data à proprement parler.

Mais imaginez que soyez manager sportif et que vous souhaitiez améliorer les performances de votre équipe en utilisant un maximum de sources d’information : par exemple les capteurs de chaque joueur pendant les matchs et les entraînements, les déplacements filmés par les caméras, les informations sur vos futurs adversaires, les twit de vos joueurs pour connaitre leur humeur, et bien sûr tout ceci sur un historique le plus long possible… alors là oui, la quantité et la diversité des données imposent une approche Big Data.

Une analyse de l’ensemble des données peut faire gagner une coupe du monde

SAP (société allemande de logiciels, sorte d’IBM européen) a ainsi utilisé ces technologies pour accompagner une équipe de football lors de la dernière coupe du monde au Brésil:

  • capteurs dans les chaussures et les protège-tibias pour analyser les mouvements, les accélérations mais aussi les informations biométriques (rythme cardiaque etc…)
  • vidéos des matchs pour modéliser le comportement de l’équipe en attaque, en défense, en fonction de l’adversaire etc…

SAP a capté ces données, les a intégrées dans sa plateforme de calcul « intensif » HANA et les a restituées de la manière la plus lisible possible au staff de l’équipe (la visualisation de l’information est un des défis majeurs du Big Data). Ceci a aidé à débriefer les matchs terminés et préparer les suivants. L’équipe, la seule, ayant bénéficié de cette solution SAP était l’Allemagne… finalement championne du monde.

Alors, coup de chance pour SAP qui attire les projecteurs sur sa solution ou coup de chance pour l’équipe d’Allemagne qui en a profité avant les autres pour devenir championne? De manière objective SAP a probablement apporté sa petite brique à l’édifice mais personne n’osera affirmer que le football est une science exacte et que l’Allemagne n’aurait pas gagné sans cela.

La seule certitude concerne le fait qu’il y aura des suites à ce premier test:

  • d’autres équipes de football vont s’équiper (le Bayern Munich l’a déjà annoncé en août)
  • la tendance s’affirme déjà en dehors du football : SportVu propose une solution analytics (à partir des vidéos) pour la NBA alors que IBM Slam Tracker analyse les échanges durant les Grands Chelems à partir de 8 ans d’historique
  • l’approche va s’enrichir : aujourd’hui elle sert à préparer les matchs (quelle tactique? quel joueur en forme? etc…). Demain les informations seront traitées en temps réel : qui doit être remplacé car fatigué? Quel changement tactique opérer? Quel écart avec le plan initial? etc…

jpeg--32xxx--32713--1159(481x271)

Un approche froide au détriment de la magie du sport?

Trop de chiffres? Moins de place au mystère? Le talent ou l’instinct d’un joueur ne peuvent-ils pas compenser une baisse de forme apparue sur un capteur? Autant de questions qui remettent un peu en cause la systématisation de l’approche « Data » du sport de haut niveau.

Cependant, quoi qu’on en pense, il ne faut pas oublier que le sport est avant tout un business qui, parfois, brasse des milliards d’euros. Ceci pour dire que si l’équipe X découvre qu’elle peut augmenter de 1.17% ses chances de gagner le championnat en investissant dans un outil SAP et en recrutant un analyste (le budget de cet investissement ne pesant rien versus la masse salariale du club) alors pensez-vous qu’elle hésitera à investir? La réponse est claire : sûr à 100% qu’elle investira, mais aussi sûr à 100% qu’elle n’aura aucune garantie sur sa réussite, elle augmentera juste un peu ses chances de victoire.

Et puis les sportifs sont avant tout des êtres humains donc pas totalement rationnels avec une composante psychologique qui pèse lourd dans la performance finale. La volonté et la confiance face à l’adversité sont complexes à évaluer avec de simples statistiques, même Twitter ne donnera jamais cela.

 

En conclusion l’explosion de l’utilisation des données dans le sport est inévitable, grâce ou à cause des usages rendus possibles par le Big Data. Toutefois, ces utilisations n’iront pas au-delà du simple rôle d’outil d’aide au management, la magie liée à l’incertitude perdurera. Je comparerais bien l’avènement du Big Data dans le sport à l’arrivée des nutritionnistes dans ce secteur il y a une vingtaine d’année, aujourd’hui plus aucune structure de haut niveau ne se passe d’eux pourtant ils ne garantissent en rien la victoire, c’est juste que leur effet s’avère globalement bénéfique.
Quelques liens utiles:

GuideInformatique – Equipe d’Allemagne01net – Equipe d’Allemagne, SportOffice – Big Data, Lexpress – Equipe d’Allemagne, USAToday – Big Data, DataBusiness – Sport.