Quoi de neuf au Big Data Paris?

L’avantage avec un rendez-vous comme le Big Data Paris c’est que l’ampleur de l’événement permet de voir suffisamment de professionnels du sujet pour cerner les grandes tendances, et surtout identifier les changements opérés depuis l’année précédente.

L’édition 2016, 5ème du nom, s’est tenue les 7 et 8 mars au Palais des Congrès à Paris, avec un succès toujours grandissant : des centaines d’éditeurs, prestataires et autres conférenciers étaient présents. Qu’en est-il alors des précédentes observations? Cf article 2015.

BDP2015vs2016

1) Les principales confirmations

Un thème tout juste émergeant en 2015 s’est nettement amplifié : l’éthique. Ceci est vrai à la fois en quantité (de conférences) mais aussi par rapport à la profondeur des interventions. L’expression « Data Science / Big Data Responsable » a été entendue  plusieurs fois, principalement de deux façons:

  • les données personnelles: quelle collecte? quelle transparence sur l’utilisation?  quelle protection? Une bonne illustration de cette mouvance est la création de l’association « Cloud Confidence » pour favoriser la « transparence sur la protection des données clients »
  • l’utilisation même des données dans notre société. A titre d’exemple Quantmetry a lancé une pétition en ligne La Révolution Big Data que nous voulons. Pétition adressée aux jeunes Data Scientist pour une utilisation raisonnée des data, avec des questions du type « quelle place de l’intelligence artificielle ? » – Petite remarque personnelle sur une ONG non présentée mais qui a une démarche superbe: Bayes Impact; ils mettent des compétences en Data Science gratuitement à disposition d’hôpitaux, d’organismes de micro crédit ou récemment de Pôle Emploi

Change

Autre confirmation/amplification : la place des HR Analytics (ou People Analytics) quand on parle de cas d’usage. En début de salon Accenture l’a même citée comme l’une des 5 tendances Big Data (au même titre par exemple que l’omniprésence de l’Internet des Objets ou la croissance des besoins sécuritaires). De nombreux cabinets, comme EY, Cap Gemini (avec F. Galthié en guest star), Deloitte etc… ont monté des offres de « HR Analytics » pour aider à comprendre les départs ou l’absentéisme des salariés, il peut aussi s’agir d’optimiser le recrutement voir même d’éclairer des problématiques plus complexes type GPEC. Bref, une nouvelle activité au sein des Ressources Humaines est en train de naître : l’exploitation des données comme « aide à la décision » pour les RH.

Enfin, toujours dans la catégorie « on en parlait déjà en 2015 » il semble y avoir un consensus sur la coexistence des infrastructures dites « Big Data » et les historiques dites « décisionnelles ». Personnellement j’ai du mal à bien comprendre les raisons de ce point de vue : est-ce pour faire plaisir aux éditeurs historiques ? est-ce le coût pour changer les systèmes qui est trop important ? ou bien est-ce qu’effectivement les infrastructures basées sur la Hadoop (sous-entendu derrière les mots Big Data) ne sont pas encore adaptées pour servir des usages décisionnels ? Franchement même si je ne suis pas assez spécialiste pour être crédible j’ai la sensation que c’est un mélange des 3. Quoi qu’il en soit à court terme tous les retours d’expérience ont mis en avant une cohabitation entre les SI Big Data les SI existants, il n’y a pas eu « d’annule et remplace » brutal.

2) Les nouveautés

Suite à la version 2015 j’avais parlé d’un tâtonnement manifeste sur les organisations et l’emphase à mettre sur la conduite du changement pour faire du Big Data une réalité au delà du buzz word, bla bla bla…

Ce point est beaucoup moins revenu cette année, par contre l’aspect organisationnel a bien été évoqué, souvent sous la forme de Data Lab ; il semblerait qu’il en pousse un peu partout en guise « d’accélérateur ». L’idée est de créer une structure dédiée aux nouvelles utilisations de la donnée pour prouver que ça fonctionne et surtout le faire de manière transverse pour toute l’entreprise. Auchan a par exemple témoigné , avec 1 an de recul, sur son Data Lab multi pays dont les premiers usages étaient des promotions personnalisées et des prévisions de vente.

BluDataAuchan

Un autre sujet que je trouve passionnant a émergé à travers un non débat lourd de sens. Il s’agit du type d’outillage pour les Data Scientist. En effet j’ai constaté une antinomie quasi parfaite entre les témoignages de conférenciers d’un côté et les démonstrations produits de l’autre :

  • lors des retours d’expérience (Auchan ou Accenture par exemple) les Data Scientist semblent travailler leurs données avec du code, en langage R, Python, Spark et parfois SAS – BluData Auchan a même précisé qu’ils étaient passés de logiciels clic bouton type SPSS à du R
  • lors des démonstrations produits les éditeurs ont proposé des solutions les plus complètes possibles dites « plateformes », le code n’y a pas sa place : pas besoin de savoir programmer ou de maîtriser les statistiques pour exploiter les données (RapidMiner, SAS VA, Alteryx, Dataiku). Le summum de cette vision revenant à IBM « Watson Analytics » avec lequel il suffit de taper une question dans une barre prévue à cet effet « Quelle tendance du CA par pays ? » et l’outil s’occupe du reste…

Les 2 visions s’opposent sur l’équilibre à trouver entre maîtrise de ce que l’on fait et rapidité/simplicité du traitement. Bien évidemment vous allez me dire que tout dépend du public d’utilisateurs, à la fois de ses compétences et de ses responsabilités (un analyste n’est pas forcément un statisticien)…. C’est tout à fait exact mais je trouve amusant de voir à quel point certains répètent que « coder c’est dépassé » alors que très concrètement on constate l’inverse. Cela vient probablement du fait que sans maîtrise, à la fois des données et des traitements, alors les analyses peuvent être remises en cause et sont donc un peu bancales. Par ailleurs la boulimie d’analytique demande une accélération des projets en contradiction avec le besoin de connaissances approfondies. Ce débat n’a pas eu lieu début mars pour la simple raison que de manière globale les éditeurs ont intérêt à mettre en avant des solutions « à la souris » beaucoup plus chers (des concurrents comme R sont même gratuits).

A noter aussi qu’un certain type de stands a plus que doublé cette fois ci: les écoles/universités/instituts de formation ! Les certificats, master ou autres modules Big Data ont été exposés pour accompagner le développement des compétences. Ça n’est encore pas énorme mais la présence de l’ENSAE, l’ENSAI, Telecom Paris, Paris Saclay, DSTI, EISTI est un signe. Bien sûr ce marché est très attendu, il n’en est encore qu’à ses débuts et va sans aucun doute s’accélérer dans les années à venir.

3) Une grande absente

Dans la masse de tous ces échanges un pilier du Big Data a brillé par son absence : la donnée en elle-même (et la Data Management en général).

Certes, des interventions l’ont évoquée, voir même une était dédiée à l’Open Data. Mais quand on sait que 75-90% du temps d’un projet Big Data consiste à sourcer et préparer les données j’ai été surpris de réaliser que c’était presque un non sujet pendant ces 2 jours. Ce thème n’étant pas sexy, il a été naturellement un peu discriminé. C’est dommage, les outils et méthodes de Data Management auraient pu intéresser du monde je pense (ça reste un événement pour les professionnels), d’autant plus que c’est un problème qui reste épineux pour beaucoup d’entreprises.

NuageMotsDataManagement

Finalement 2016 s’inscrit dans la droite lignée de l’année dernière avec simplement quelques nouveautés : les Data Lab, le débat (tacite) sur les outils analytiques et la structuration du monde de la formation. Pas de rupture majeure ni de désillusion. J’ajouterais aussi que le salon accueillant un public de plus en plus large en vient à être assez généraliste, les discussions trop pointues sont évitées. Pas facile alors dans ces conditions d’identifier les signaux faibles pour les années à venir, il faudra aller les chercher ailleurs.

Quelques liens utiles: HR Analytics l’offre originale et très intéressante de ClustreeLa « Insights Platform » d’AccentureLe salon Data Job (fin 2015 avec la présentation de la plupart des cursus Data Science), blog Uman Partners sur les problématiques RH

Quels voeux pour le Big Data en 2016? (non non il n’est pas trop tard)

Janvier est traditionnellement le mois des bonnes résolutions et des vœux : santé, bonheur, joie, succès, rigolade, richesse etc… Il n’est donc pas encore trop tard pour se pencher sur ce le cas du Big Data en 2016 : que peut-on souhaiter à un pré-ado en pleine croissance?

Ces 2 dernières années le sujet est passé, dans les entreprises, d’un buzz word (concept fumeux) à une vague de tests en tous genres pour toucher du doigt la valeur business du phénomène. Alors qu’attendre de plus pour les 12 mois à venir?

Une accélération des passages « en production »?

FactoryData

Comme tout nouveau concept objet de belles expérimentations, le Big Data et ses technologies font face à LA difficulté classique : le passage au monde réel i.e. le quotidien industriel des entreprises.

En effet, pour vérifier l’intérêt de la distribution du stockage et du traitement, il n’est aujourd’hui pas si complexe de monter un lac de données sur une infrastructure Big Data; sous réserve d’avoir le temps, les moyens et les compétences adéquates (internes ou externes). Cela fait beaucoup de « si » donc je ne veux surtout rien enlever à ceux qui ont déjà pu mener de tels projets. Une fois cette construction réalisée reste à y charger des données puis les traiter; là encore rien de simple mais avec un peu de patience on peut finir par y arriver.

Sincèrement la plus grosse difficulté, à la fois technique, politique et ROIste (prouver la rentabilité) arrive ensuite, lorsqu’il faut intégrer ces solutions dans les environnements existants. Ca n’est d’ailleurs pas un hasard si la très grande majorité des entreprises exploitant quotidiennement le Big Data sont toutes récentes et « nées » à l’ère du digital (ça va du classique Critéo pour le retargeting à l’excellente nouveauté Clustree dans les RH). Certains plus « anciens » y sont arrivés, par exemple le Crédit Mutuel Arkea, mais ils ont démarré tôt leurs démarches, en 2009 dans ce cas précis.

Dans les entreprises avec un système d’information historique déjà développé on constate alors un potentiel Big Data naturel sur les besoins nouveaux : par exemple la collecte et l’analyse des données digitales des clients (les fameuses DMP), ou bien des données « machines » pour de la maintenance prédictive. Bref, pour éviter d’investir d’importantes sommes dans des opérations déjà (partiellement) traitées on se concentre sur les innovations. C’est une première étape de développement qui en appellera probablement d’autres si les fameuses « mises en production » s’avèrent des succès.

Un peu plus d’importance accordée à la matière première: la donnée

DataMatierePremiere

Il arrive régulièrement de voir des POC (Proof Of Concept) sur les technologies Big Data ou sur les méthodes prédictives de pointe. Mais au final, pour obtenir de l’information plus pertinente, rien de tel que de partir de données plus riches: meilleure qualité, meilleure préparation, sources plus nombreuses (même internes) etc… Ce travail autour de la donnée n’est clairement pas le plus sexy, il reste cependant fondamental.

Si ces questions sur les Data sont parfois mal traitées c’est aussi, et surtout, parce qu’il est compliqué de bien « manager » ses données, d’intégrer de nouvelles sources et si possible d’automatiser le tout. Il s’agit des tâches chronophages (~2/3 du temps d’un projet) et complexes techniquement, elles demandent une expertise rare.

Je parle là bien sûr de « Gouvernance de la donnée« : comment organiser la donnée pour enrichir l’information disponible? Même si le thème est encore flou il est indispensable de se pencher sur les questions qu’il suscite sans quoi le moteur tournera à vide.

Une touche d’éthique pour préparer l’avenir

RepNum

Le respect de la loi Informatique et Libertés est un incontournable. Toute personne travaillant dans ce domaine a intérêt à connaître les bases de cette loi sur les données à caractère personnel: comment les collecter? comment les utiliser? quelles obligations en termes de gestion? etc… Ce cadre prend d’autant plus d’importance que le rôle de la CNIL a été renforcé dans le projet de loi République Numérique.

Mais, doit-on, en tant que marque connue ou simple citoyen, réellement se limiter à la législation alors qu’il s’agit d’une problématique nouvelle en pleine évolution?

J’aurais tendance à dire « non, 3 fois non », les entreprises ont un devoir de transparence et de respect si elles veulent s’inscrire dans le long terme; on peut même considérer qu’il appartient à chacun de faire avancer les débats, que ce soit en participant aux consultations lors des projets de loi ou en soutenant l’incroyable démarche « Open Data » enclenchée par Henri Verdier, démarche concrétisée à travers le site Data.gouv.fr.

Des tas de questions restent à traiter sur ces sujets-là : quelle gestion pour les données issues des objets connectés (par exemple les voitures connectées)? quelle législation sur la maîtrise des algorithmes? quelles évolutions attendre sur les données de santé? quelles données (non personnelles) les entreprises doivent-elles rendre publiques pour le bien de tous?

Autant de points sur lesquels je n’ai bien sûr pas la prétention d’avoir un avis si ce n’est de dire qu’il faut y réfléchir aujourd’hui avant d’être rattrapés par des scandales.

Et si on souhaitait tout simplement au Big Data de disparaître des discussions ?

Arrêter d’en parler ne signifierait pas un manque d’intérêt mais tout simplement une normalisation du phénomène. Cela éviterait peut être de mettre les mots Big Data à toutes les sauces, car finalement c’est juste une autre façon d’exploiter, au sens large, les données.

Bon, soyons honnête, ce vœux me parait un peu prématuré en 2016, d’une part car nous sommes loin d’avoir épuisé le potentiel « mode » de ces termes, d’autre part car les systèmes de stockage et traitement plus traditionnels (par exemple Oracle) ont encore de beaux jours devant eux – il faut donc bien un nom pour les nouvelles solutions. Il est ainsi peu probable que les éditeurs, consultants, ou autres experts bannissent, à court terme, ces 2 mots de leur vocabulaire.

Ceci dit vivement que ça arrive car on peut encore entendre/lire tout et n’importe quoi sur Hadoop, le Machine Learning, la Data Management etc… Peut-être que cette année le relais sera pris, au moins dans le secteur financier, par la blockchain qui concentre beaucoup d’idées reçues assez rigolotes, je vous laisse découvrir tout seul ce qui se cache derrière cette notion (je préfère passer mon tour et laisser la place aux spécialistes).

Blockchain-Logo-Blue6

 

Alors bonne année au Big Data à qui l’on peut souhaiter un peu plus de maturité business, le tout dans un cadre éthique à construire. Rendez-vous l’année prochaine pour voir si les choses ont évolué.

 

Big Data, appelez-le « Coach »

Les parisiens prenant le métro n’ont pas pu louper la campagne d’affichage « Descendre 1 station avant = 1400 pas », campagne qui fait la promotion d’un bracelet connecté. Le business des objets connectés du type bracelet, montre, ou autres capteurs d’activité, est en plein essor. Ces objets, via les informations qu’ils restituent, vous incitent à vous dépenser voir même vous dépasser.

Du suivi personnalisé allant jusqu’au coaching

Nike+, créé en 2006, est une belle illustration de ce phénomène, le service connait une très forte croissance depuis quelques années. En France 4 produits sont proposés : application running, montre « sport » connectée, application coach personnel et le récent bracelet Fuelband. Ce dernier se présente comme le « moyen intelligent, simple et fun d’être encore plus actif » avec le slogan « Motivé. Partout. Tout le temps ». Nike+, en 2013, revendiquait quasiment 20 millions d’utilisateurs dans le monde!

Nikeplusproducts

Bref, si certains pensaient que l’accompagnement de l’activité sportive ou quotidienne (nombre de pas, sommeil etc…) par des objets connectés était juste un effet de mode, les dernières tendances montrent clairement qu’il y a un marché captif pour ces usages et que les produits ne sont pas du tout déceptifs.

Au-delà du monitoring de l’activité on assiste aussi à l’émergence du coaching personnel plus pointu. C’est par exemple le cas pour le golf avec la solution Swing Tip, un capteur à clipser sur votre club de golf qui analyse votre mouvement (votre swing). Ce capteur est proposé par la société Mobicoach qui propose aussi des e-cours de golf durant lesquels vos coups sont décortiqués en vidéo live par un coach. Swing Tip coûte 100$ et envoie sur votre iphone le décryptage de votre swing (vitesse, angle etc…) pour vous aider à progresser.

SwingTip

Ces solutions technologiques sont bien entendu basées sur la capture, le traitement et l’analyse de données en temps réel. Le Big Data n’est pas loin. Ceci dit, pour être un peu puriste, la quantité de données envoyée par un bracelet connecté sur un iphone pour réaliser un tableau de bord n’est pas énorme: pas besoin de lac de données, de parallélisation des calculs ou même de machine learning pour suivre une activité quotidienne. Il ne s’agit donc pas de Big Data à proprement parler.

Mais imaginez que soyez manager sportif et que vous souhaitiez améliorer les performances de votre équipe en utilisant un maximum de sources d’information : par exemple les capteurs de chaque joueur pendant les matchs et les entraînements, les déplacements filmés par les caméras, les informations sur vos futurs adversaires, les twit de vos joueurs pour connaitre leur humeur, et bien sûr tout ceci sur un historique le plus long possible… alors là oui, la quantité et la diversité des données imposent une approche Big Data.

Une analyse de l’ensemble des données peut faire gagner une coupe du monde

SAP (société allemande de logiciels, sorte d’IBM européen) a ainsi utilisé ces technologies pour accompagner une équipe de football lors de la dernière coupe du monde au Brésil:

  • capteurs dans les chaussures et les protège-tibias pour analyser les mouvements, les accélérations mais aussi les informations biométriques (rythme cardiaque etc…)
  • vidéos des matchs pour modéliser le comportement de l’équipe en attaque, en défense, en fonction de l’adversaire etc…

SAP a capté ces données, les a intégrées dans sa plateforme de calcul « intensif » HANA et les a restituées de la manière la plus lisible possible au staff de l’équipe (la visualisation de l’information est un des défis majeurs du Big Data). Ceci a aidé à débriefer les matchs terminés et préparer les suivants. L’équipe, la seule, ayant bénéficié de cette solution SAP était l’Allemagne… finalement championne du monde.

Alors, coup de chance pour SAP qui attire les projecteurs sur sa solution ou coup de chance pour l’équipe d’Allemagne qui en a profité avant les autres pour devenir championne? De manière objective SAP a probablement apporté sa petite brique à l’édifice mais personne n’osera affirmer que le football est une science exacte et que l’Allemagne n’aurait pas gagné sans cela.

La seule certitude concerne le fait qu’il y aura des suites à ce premier test:

  • d’autres équipes de football vont s’équiper (le Bayern Munich l’a déjà annoncé en août)
  • la tendance s’affirme déjà en dehors du football : SportVu propose une solution analytics (à partir des vidéos) pour la NBA alors que IBM Slam Tracker analyse les échanges durant les Grands Chelems à partir de 8 ans d’historique
  • l’approche va s’enrichir : aujourd’hui elle sert à préparer les matchs (quelle tactique? quel joueur en forme? etc…). Demain les informations seront traitées en temps réel : qui doit être remplacé car fatigué? Quel changement tactique opérer? Quel écart avec le plan initial? etc…

jpeg--32xxx--32713--1159(481x271)

Un approche froide au détriment de la magie du sport?

Trop de chiffres? Moins de place au mystère? Le talent ou l’instinct d’un joueur ne peuvent-ils pas compenser une baisse de forme apparue sur un capteur? Autant de questions qui remettent un peu en cause la systématisation de l’approche « Data » du sport de haut niveau.

Cependant, quoi qu’on en pense, il ne faut pas oublier que le sport est avant tout un business qui, parfois, brasse des milliards d’euros. Ceci pour dire que si l’équipe X découvre qu’elle peut augmenter de 1.17% ses chances de gagner le championnat en investissant dans un outil SAP et en recrutant un analyste (le budget de cet investissement ne pesant rien versus la masse salariale du club) alors pensez-vous qu’elle hésitera à investir? La réponse est claire : sûr à 100% qu’elle investira, mais aussi sûr à 100% qu’elle n’aura aucune garantie sur sa réussite, elle augmentera juste un peu ses chances de victoire.

Et puis les sportifs sont avant tout des êtres humains donc pas totalement rationnels avec une composante psychologique qui pèse lourd dans la performance finale. La volonté et la confiance face à l’adversité sont complexes à évaluer avec de simples statistiques, même Twitter ne donnera jamais cela.

 

En conclusion l’explosion de l’utilisation des données dans le sport est inévitable, grâce ou à cause des usages rendus possibles par le Big Data. Toutefois, ces utilisations n’iront pas au-delà du simple rôle d’outil d’aide au management, la magie liée à l’incertitude perdurera. Je comparerais bien l’avènement du Big Data dans le sport à l’arrivée des nutritionnistes dans ce secteur il y a une vingtaine d’année, aujourd’hui plus aucune structure de haut niveau ne se passe d’eux pourtant ils ne garantissent en rien la victoire, c’est juste que leur effet s’avère globalement bénéfique.
Quelques liens utiles:

GuideInformatique – Equipe d’Allemagne01net – Equipe d’Allemagne, SportOffice – Big Data, Lexpress – Equipe d’Allemagne, USAToday – Big Data, DataBusiness – Sport.

Le Big Data au service de la lutte contre la criminalité

Les exemples d’utilisation du Big Data ne manquent pas et les secteurs impactés sont trés nombreux. La sécurité en fait partie, il s’agit d’un exemple très intéressant car il le Big Data y fait ses preuves depuis quelques années aux Etats Unis alors que la France n’en est encore qu’aux balbutiements.

 

Les grandes villes nord-américaines (Etats Unis et Canada) déploient progressivement (depuis 2010 environ) des solutions technologiques leur permettant 3 types d’usage.

  1. Anticiper les crimes prémédités (typiquement les cambriolages, vol de voitures, braquages etc):
    • en prenant en compte l’historique des crimes (série de cambriolage en cours dans tel quartier tous les mardis après-midi)
    • mais en y intégrant aussi des informations diverses (circulation, évènements, heures de fermeture/ouverture des magasins etc…)
    • les forces de police obtiennent ainsi des cartes avec les secteurs et heures probables des crimes potentiels, les patrouilles et surveillances sont ensuite organisées de manière efficace

    L’outil Predpol (http://www.predpol.com/) a été conçu autour d’un algorithme de prévision des crimes, il fait ses preuves depuis 3 ans: en 2012 les zones Predpol ont connu une baisse de criminalité supérieure à 10% quand le reste des Etats-Unis a connu une très légère hausse. IBM propose aussi ce type de service, voici un bel exemple avec la police de Memphis: http://www.ibm.com/smarterplanet/us/en/leadership/memphispd/.

    Exemple de la restitution Predpol pour les violences à mains armées:

    predpol

  2. Fournir en temps réel les informations pertinentes aux équipes sur le terrain:
    • sur des smartphones ou PDA
    • les agents de Police peuvent consulter en temps réel (quasi), sur des cartes, les informations sur la criminalité, et peuvent en partager certaines avec des civils pour appels à témoignage

    Ces données ne sont pas prédictives mais sont très utiles pour organiser une patrouille « classique » et le travail quotidien d’agents sur un secteur précis. Voici un exemple avec la police de Vacouver en train de déployer un tel outil: http://people4smartercities.com/video/vancouver-police-department-uses-big-data-analytics-fight-crime-4-videos

  3. Nouveau: aider à la résolution des enquêtes
    • A partir de toutes les données de l’enquête (vidéos, témoignages, lieu, heure, type de crime etc…)
    • En croisant avec les bases de données criminelles existantes (sur les criminels mais aussi et surtout les « MO » = Motus Operandi ou Mode Opératoire)
    • Le logiciel calcule et propose une liste de suspects potentiels
    • Les enquêteurs utilisent ensuite cette liste pour enrichir leur enquête et peuvent cibler les interrogatoires à mener ou bien les photos à montrer

IBM à développer pour Miami-Dade le logiciel Blue PALMS: http://www.ibm.com/smarterplanet/global/files/us__en_us__leadership__miami_dade.pdf, se confrontant évidemment au septicisme (voir plus) des enquêteurs locaux. Les résultats ont cependant prouvé que Blue Palms était pertinent et représentait une véritable aide aux enquêteurs. Les exemples de réussites ont été nombreux (IBM explique même que sur les 40 cas testés a posteriori le logiciel avait le bon suspect dans sa short list 73% du temps).

 

Ces exemples aux Etats-Unis et Canada posent quand même 2 questions.

La première est « pourquoi si des solutions tellement efficaces existent la France (et l’Europe plus généralement) ne les utilisent pas« ? La réponse est en fait très simple: les Etats-Unis sont globalement très avance sur le domaine du Big Data dans tous les secteurs (santé, distribution, banques, assurances etc…), la sécurité n’est pas différente du reste. A noter aussi que des réflexions sont en cours du côté du ministère de l’intérieur, la France en est au stade des expérimentations (Paris Lille Lyon Marseille) et des appels d’offres: http://journaleuse.com/2014/07/09/big-data-interieur-defense/.

La seconde est plus philosophique concernant le prédictif : « où se situe la frontière entre ce qui est éthiquement acceptable et ce qui ne l’est plus? » En effet si le logiciel Blue PALMS indique qu’une personne est suspecte sans raison apparente est-ce correct de l’ajouter à la liste? Prévoir les crimes ne vont-ils pas juste les déplacer sur des zones moins étudiées car moins riches? etc… Il est évidemment impossible de répondre facilement à de telles questions, il est plus simple de botter en touche: pour l’instant ces outils aident la Police a être plus efficace, rien de plus, ce qui est déjà un beau progrès en soi…

La révolution Big Data est en marche…. mais de quoi parle-t-on?

Big Data se traduit littéralement par « Grosses Données » ou « Masse de Données. Cependant le sens de ces mots est réducteur car quand on parle du phénomène Big Data il s’agit en fait des (r)évolutions à 3 niveaux: les données disponibles sont en pleine mutation, les outils et méthodes de traitement doivent donc s’adapter, et enfin les usages qui en sont faits sont totalement en rupture avec l’existant.

 

Les données vivent une mutation sans précédent:

Bien entendu le volume de données existant connait une croissance très forte depuis le début de l’ère numérique (développement du web à la fin des années 90), ceci s’accélère et la croissance est exponentielle. Cependant le changement ne concerne pas que la quantité, en effet comme le précise Gartner (cabinet de conseil américain pionnier de la théorie sur le Big Data) la donnée a changé selon les 3 V: Volume, Variété et Vélocité. Au-delà de la quantité c’est donc aussi le type de données (fichiers, vidéos, images, blogs, média sociaux, objets connectés) et la fréquence d’enregistrement qui changent (temps réel pour un GPS par exemple ou achat vente d’espaces pub en quelques nanosecondes).

La littérature pousse parfois sur des 4ème ou 5ème V avec la Véracité (la quantité est parfois au détriment de la qualité) et la Valeur (les données deviennent une matière première et sont monétisables).

 

Les outils et méthodologies s’adaptent:

Les premiers à être confrontés à la problématique de la quantité de données furent les acteurs du web, les astronomes et la recherche médicale. Les solutions de traitement aujourd’hui les plus connues ont d’ailleurs une paternité chez Yahoo et Google. La parallélisation des calculs sur un réseau d’ordinateur, l’optimisation astucieuse de ses calculs (cf MapReduce) ainsi que la création de nouveaux langages (cf NoSQL) ont abouti aux solutions actuelles, la plus commune étant Hadoop. A noter que la révolution est aussi culturelle: Hadoop est opensource donc en libre accès avec des communautés de développeurs qui partagent gratuitement les résultats de leurs recherches.

Au-delà des technologies les méthodes statistiques doivent aussi évoluer; de manière assez étonnante on assiste au retours à des méthodes historiquement abandonnées par manque de précision. Depuis les années 2000 les statistiques ont beaucoup progressé dans la modélisation en cherchant à prévoir de la manière la plus parfaite possible (il faut trouver le modèle qui colle le plus à la réalité). Avec l’explosion des données il maintenant nécessaire (depuis environ 4-5 ans) d’intégrer la dimension « capacité à calculer », c’est pourquoi l’informatique et la statistique sont en train de se rapprocher. La méthode à la mode en ce moment est par exemple le « machine learning », méthode historiquement informatique (approche algorithmique qui améliore automatiquement le modèle avec l’arrivée de nouvelles observations, cela évite de tester toutes les combinaisons). Cette méthode existe depuis environ 50 ans mais ne donnait pas de résultats suffisamment pertinents faute de données en masse.

 

Les applications concrètes du Big Data sont innovantes

Il est impossible de faire un panorama complet des usages du Big Data, c’est d’ailleurs pourquoi on parle de révolution car le champ des possibles est quasi infini!

Il est toutefois possible de lister quelques domaines et quelques exemples intéressant d’utilisation du Big Data:

  • En santé:
    • la recherche génomique avance plus vite grâce à la capacité de traitement et de modélisation « Big Data »
    • l’épidémiologie aussi fait un bond en avant, sujet d’actualité avec le virus ebola (un outil Google Flutrends existe d’ailleurs, recherche de l’avancée d’épidémie virale grâce à la lecture géographique des mots clés tapés dans Google)
  • En marketing:
    • des sociétés comme Criteo permettent de définir instantannément la publicité qu’il faut vous afficher quand vous naviguez sur internet; pour cela ils se basent sur les cookies présents dans votre ordinateur mais prennent aussi en compte le coût d’achat de la bannière à l’instant T (Real Time Bidding) pour optimiser les dépenses
    • les assureurs vont pouvoir, grâce aux boitiers présents dans les voitures, accorder des tarifs réduits à ceux qui ont un comportement « bon conducteur »
  • En politique: lors de la dernière campagne présidentielle américaine le camps Obama a ciblé ses actions de porte à porte après avoir déterminé les foyers les plus indécis grâce au Big Data (profils socio-démographiques, données web etc…)

Ces quelques exemples sont évidemment loin d’être exhaustifs mais il y en aura d’autres! L’objectif du blog est de partager et décortiquer les exemples concrets d’usage Big Data.