Quoi de neuf au Big Data Paris?

L’avantage avec un rendez-vous comme le Big Data Paris c’est que l’ampleur de l’événement permet de voir suffisamment de professionnels du sujet pour cerner les grandes tendances, et surtout identifier les changements opérés depuis l’année précédente.

L’édition 2016, 5ème du nom, s’est tenue les 7 et 8 mars au Palais des Congrès à Paris, avec un succès toujours grandissant : des centaines d’éditeurs, prestataires et autres conférenciers étaient présents. Qu’en est-il alors des précédentes observations? Cf article 2015.

BDP2015vs2016

1) Les principales confirmations

Un thème tout juste émergeant en 2015 s’est nettement amplifié : l’éthique. Ceci est vrai à la fois en quantité (de conférences) mais aussi par rapport à la profondeur des interventions. L’expression « Data Science / Big Data Responsable » a été entendue  plusieurs fois, principalement de deux façons:

  • les données personnelles: quelle collecte? quelle transparence sur l’utilisation?  quelle protection? Une bonne illustration de cette mouvance est la création de l’association « Cloud Confidence » pour favoriser la « transparence sur la protection des données clients »
  • l’utilisation même des données dans notre société. A titre d’exemple Quantmetry a lancé une pétition en ligne La Révolution Big Data que nous voulons. Pétition adressée aux jeunes Data Scientist pour une utilisation raisonnée des data, avec des questions du type « quelle place de l’intelligence artificielle ? » – Petite remarque personnelle sur une ONG non présentée mais qui a une démarche superbe: Bayes Impact; ils mettent des compétences en Data Science gratuitement à disposition d’hôpitaux, d’organismes de micro crédit ou récemment de Pôle Emploi

Change

Autre confirmation/amplification : la place des HR Analytics (ou People Analytics) quand on parle de cas d’usage. En début de salon Accenture l’a même citée comme l’une des 5 tendances Big Data (au même titre par exemple que l’omniprésence de l’Internet des Objets ou la croissance des besoins sécuritaires). De nombreux cabinets, comme EY, Cap Gemini (avec F. Galthié en guest star), Deloitte etc… ont monté des offres de « HR Analytics » pour aider à comprendre les départs ou l’absentéisme des salariés, il peut aussi s’agir d’optimiser le recrutement voir même d’éclairer des problématiques plus complexes type GPEC. Bref, une nouvelle activité au sein des Ressources Humaines est en train de naître : l’exploitation des données comme « aide à la décision » pour les RH.

Enfin, toujours dans la catégorie « on en parlait déjà en 2015 » il semble y avoir un consensus sur la coexistence des infrastructures dites « Big Data » et les historiques dites « décisionnelles ». Personnellement j’ai du mal à bien comprendre les raisons de ce point de vue : est-ce pour faire plaisir aux éditeurs historiques ? est-ce le coût pour changer les systèmes qui est trop important ? ou bien est-ce qu’effectivement les infrastructures basées sur la Hadoop (sous-entendu derrière les mots Big Data) ne sont pas encore adaptées pour servir des usages décisionnels ? Franchement même si je ne suis pas assez spécialiste pour être crédible j’ai la sensation que c’est un mélange des 3. Quoi qu’il en soit à court terme tous les retours d’expérience ont mis en avant une cohabitation entre les SI Big Data les SI existants, il n’y a pas eu « d’annule et remplace » brutal.

2) Les nouveautés

Suite à la version 2015 j’avais parlé d’un tâtonnement manifeste sur les organisations et l’emphase à mettre sur la conduite du changement pour faire du Big Data une réalité au delà du buzz word, bla bla bla…

Ce point est beaucoup moins revenu cette année, par contre l’aspect organisationnel a bien été évoqué, souvent sous la forme de Data Lab ; il semblerait qu’il en pousse un peu partout en guise « d’accélérateur ». L’idée est de créer une structure dédiée aux nouvelles utilisations de la donnée pour prouver que ça fonctionne et surtout le faire de manière transverse pour toute l’entreprise. Auchan a par exemple témoigné , avec 1 an de recul, sur son Data Lab multi pays dont les premiers usages étaient des promotions personnalisées et des prévisions de vente.

BluDataAuchan

Un autre sujet que je trouve passionnant a émergé à travers un non débat lourd de sens. Il s’agit du type d’outillage pour les Data Scientist. En effet j’ai constaté une antinomie quasi parfaite entre les témoignages de conférenciers d’un côté et les démonstrations produits de l’autre :

  • lors des retours d’expérience (Auchan ou Accenture par exemple) les Data Scientist semblent travailler leurs données avec du code, en langage R, Python, Spark et parfois SAS – BluData Auchan a même précisé qu’ils étaient passés de logiciels clic bouton type SPSS à du R
  • lors des démonstrations produits les éditeurs ont proposé des solutions les plus complètes possibles dites « plateformes », le code n’y a pas sa place : pas besoin de savoir programmer ou de maîtriser les statistiques pour exploiter les données (RapidMiner, SAS VA, Alteryx, Dataiku). Le summum de cette vision revenant à IBM « Watson Analytics » avec lequel il suffit de taper une question dans une barre prévue à cet effet « Quelle tendance du CA par pays ? » et l’outil s’occupe du reste…

Les 2 visions s’opposent sur l’équilibre à trouver entre maîtrise de ce que l’on fait et rapidité/simplicité du traitement. Bien évidemment vous allez me dire que tout dépend du public d’utilisateurs, à la fois de ses compétences et de ses responsabilités (un analyste n’est pas forcément un statisticien)…. C’est tout à fait exact mais je trouve amusant de voir à quel point certains répètent que « coder c’est dépassé » alors que très concrètement on constate l’inverse. Cela vient probablement du fait que sans maîtrise, à la fois des données et des traitements, alors les analyses peuvent être remises en cause et sont donc un peu bancales. Par ailleurs la boulimie d’analytique demande une accélération des projets en contradiction avec le besoin de connaissances approfondies. Ce débat n’a pas eu lieu début mars pour la simple raison que de manière globale les éditeurs ont intérêt à mettre en avant des solutions « à la souris » beaucoup plus chers (des concurrents comme R sont même gratuits).

A noter aussi qu’un certain type de stands a plus que doublé cette fois ci: les écoles/universités/instituts de formation ! Les certificats, master ou autres modules Big Data ont été exposés pour accompagner le développement des compétences. Ça n’est encore pas énorme mais la présence de l’ENSAE, l’ENSAI, Telecom Paris, Paris Saclay, DSTI, EISTI est un signe. Bien sûr ce marché est très attendu, il n’en est encore qu’à ses débuts et va sans aucun doute s’accélérer dans les années à venir.

3) Une grande absente

Dans la masse de tous ces échanges un pilier du Big Data a brillé par son absence : la donnée en elle-même (et la Data Management en général).

Certes, des interventions l’ont évoquée, voir même une était dédiée à l’Open Data. Mais quand on sait que 75-90% du temps d’un projet Big Data consiste à sourcer et préparer les données j’ai été surpris de réaliser que c’était presque un non sujet pendant ces 2 jours. Ce thème n’étant pas sexy, il a été naturellement un peu discriminé. C’est dommage, les outils et méthodes de Data Management auraient pu intéresser du monde je pense (ça reste un événement pour les professionnels), d’autant plus que c’est un problème qui reste épineux pour beaucoup d’entreprises.

NuageMotsDataManagement

Finalement 2016 s’inscrit dans la droite lignée de l’année dernière avec simplement quelques nouveautés : les Data Lab, le débat (tacite) sur les outils analytiques et la structuration du monde de la formation. Pas de rupture majeure ni de désillusion. J’ajouterais aussi que le salon accueillant un public de plus en plus large en vient à être assez généraliste, les discussions trop pointues sont évitées. Pas facile alors dans ces conditions d’identifier les signaux faibles pour les années à venir, il faudra aller les chercher ailleurs.

Quelques liens utiles: HR Analytics l’offre originale et très intéressante de ClustreeLa « Insights Platform » d’AccentureLe salon Data Job (fin 2015 avec la présentation de la plupart des cursus Data Science), blog Uman Partners sur les problématiques RH

Quels voeux pour le Big Data en 2016? (non non il n’est pas trop tard)

Janvier est traditionnellement le mois des bonnes résolutions et des vœux : santé, bonheur, joie, succès, rigolade, richesse etc… Il n’est donc pas encore trop tard pour se pencher sur ce le cas du Big Data en 2016 : que peut-on souhaiter à un pré-ado en pleine croissance?

Ces 2 dernières années le sujet est passé, dans les entreprises, d’un buzz word (concept fumeux) à une vague de tests en tous genres pour toucher du doigt la valeur business du phénomène. Alors qu’attendre de plus pour les 12 mois à venir?

Une accélération des passages « en production »?

FactoryData

Comme tout nouveau concept objet de belles expérimentations, le Big Data et ses technologies font face à LA difficulté classique : le passage au monde réel i.e. le quotidien industriel des entreprises.

En effet, pour vérifier l’intérêt de la distribution du stockage et du traitement, il n’est aujourd’hui pas si complexe de monter un lac de données sur une infrastructure Big Data; sous réserve d’avoir le temps, les moyens et les compétences adéquates (internes ou externes). Cela fait beaucoup de « si » donc je ne veux surtout rien enlever à ceux qui ont déjà pu mener de tels projets. Une fois cette construction réalisée reste à y charger des données puis les traiter; là encore rien de simple mais avec un peu de patience on peut finir par y arriver.

Sincèrement la plus grosse difficulté, à la fois technique, politique et ROIste (prouver la rentabilité) arrive ensuite, lorsqu’il faut intégrer ces solutions dans les environnements existants. Ca n’est d’ailleurs pas un hasard si la très grande majorité des entreprises exploitant quotidiennement le Big Data sont toutes récentes et « nées » à l’ère du digital (ça va du classique Critéo pour le retargeting à l’excellente nouveauté Clustree dans les RH). Certains plus « anciens » y sont arrivés, par exemple le Crédit Mutuel Arkea, mais ils ont démarré tôt leurs démarches, en 2009 dans ce cas précis.

Dans les entreprises avec un système d’information historique déjà développé on constate alors un potentiel Big Data naturel sur les besoins nouveaux : par exemple la collecte et l’analyse des données digitales des clients (les fameuses DMP), ou bien des données « machines » pour de la maintenance prédictive. Bref, pour éviter d’investir d’importantes sommes dans des opérations déjà (partiellement) traitées on se concentre sur les innovations. C’est une première étape de développement qui en appellera probablement d’autres si les fameuses « mises en production » s’avèrent des succès.

Un peu plus d’importance accordée à la matière première: la donnée

DataMatierePremiere

Il arrive régulièrement de voir des POC (Proof Of Concept) sur les technologies Big Data ou sur les méthodes prédictives de pointe. Mais au final, pour obtenir de l’information plus pertinente, rien de tel que de partir de données plus riches: meilleure qualité, meilleure préparation, sources plus nombreuses (même internes) etc… Ce travail autour de la donnée n’est clairement pas le plus sexy, il reste cependant fondamental.

Si ces questions sur les Data sont parfois mal traitées c’est aussi, et surtout, parce qu’il est compliqué de bien « manager » ses données, d’intégrer de nouvelles sources et si possible d’automatiser le tout. Il s’agit des tâches chronophages (~2/3 du temps d’un projet) et complexes techniquement, elles demandent une expertise rare.

Je parle là bien sûr de « Gouvernance de la donnée« : comment organiser la donnée pour enrichir l’information disponible? Même si le thème est encore flou il est indispensable de se pencher sur les questions qu’il suscite sans quoi le moteur tournera à vide.

Une touche d’éthique pour préparer l’avenir

RepNum

Le respect de la loi Informatique et Libertés est un incontournable. Toute personne travaillant dans ce domaine a intérêt à connaître les bases de cette loi sur les données à caractère personnel: comment les collecter? comment les utiliser? quelles obligations en termes de gestion? etc… Ce cadre prend d’autant plus d’importance que le rôle de la CNIL a été renforcé dans le projet de loi République Numérique.

Mais, doit-on, en tant que marque connue ou simple citoyen, réellement se limiter à la législation alors qu’il s’agit d’une problématique nouvelle en pleine évolution?

J’aurais tendance à dire « non, 3 fois non », les entreprises ont un devoir de transparence et de respect si elles veulent s’inscrire dans le long terme; on peut même considérer qu’il appartient à chacun de faire avancer les débats, que ce soit en participant aux consultations lors des projets de loi ou en soutenant l’incroyable démarche « Open Data » enclenchée par Henri Verdier, démarche concrétisée à travers le site Data.gouv.fr.

Des tas de questions restent à traiter sur ces sujets-là : quelle gestion pour les données issues des objets connectés (par exemple les voitures connectées)? quelle législation sur la maîtrise des algorithmes? quelles évolutions attendre sur les données de santé? quelles données (non personnelles) les entreprises doivent-elles rendre publiques pour le bien de tous?

Autant de points sur lesquels je n’ai bien sûr pas la prétention d’avoir un avis si ce n’est de dire qu’il faut y réfléchir aujourd’hui avant d’être rattrapés par des scandales.

Et si on souhaitait tout simplement au Big Data de disparaître des discussions ?

Arrêter d’en parler ne signifierait pas un manque d’intérêt mais tout simplement une normalisation du phénomène. Cela éviterait peut être de mettre les mots Big Data à toutes les sauces, car finalement c’est juste une autre façon d’exploiter, au sens large, les données.

Bon, soyons honnête, ce vœux me parait un peu prématuré en 2016, d’une part car nous sommes loin d’avoir épuisé le potentiel « mode » de ces termes, d’autre part car les systèmes de stockage et traitement plus traditionnels (par exemple Oracle) ont encore de beaux jours devant eux – il faut donc bien un nom pour les nouvelles solutions. Il est ainsi peu probable que les éditeurs, consultants, ou autres experts bannissent, à court terme, ces 2 mots de leur vocabulaire.

Ceci dit vivement que ça arrive car on peut encore entendre/lire tout et n’importe quoi sur Hadoop, le Machine Learning, la Data Management etc… Peut-être que cette année le relais sera pris, au moins dans le secteur financier, par la blockchain qui concentre beaucoup d’idées reçues assez rigolotes, je vous laisse découvrir tout seul ce qui se cache derrière cette notion (je préfère passer mon tour et laisser la place aux spécialistes).

Blockchain-Logo-Blue6

 

Alors bonne année au Big Data à qui l’on peut souhaiter un peu plus de maturité business, le tout dans un cadre éthique à construire. Rendez-vous l’année prochaine pour voir si les choses ont évolué.

 

Pourquoi la frénésie Big Data s’apaiserait-elle?

En plaçant le Big Data entre le sommet des « attentes démesurées » et le creux de la « phase des désillusions » dans son Hype Cycle 2014, le Gartner avait annoncé l’été dernier un retour sur terre quant aux espoirs placés dans ce phénomène. En léger décalage par rapport à l’Amérique du Nord, le marché français n’en est pas encore à un tel apaisement, j’ai donc envie de me pencher sur les potentielles déceptions qui pourraient l’expliquer.

Petit aparté pour ceux connaissant mal ou pas le mythique « Hype Cycle » du Gartner (cabinet de conseil et recherche en nouvelles technologies). Si je devais traduire « Hype Cycle » je tenterais « Le cycle du battage médiatique ». Le Gartner l’a modélisé à travers plusieurs phases: une rapide croissance générant des attentes trop élevées suivi d’une chute jusqu’à une période de désillusions pour ensuite revenir progressivement à un niveau normal de visibilité:

hypecyclegartnercritiqueHC_ET_2014

En août 2014 le Big Data avait entamé sa redescente, la version 2015 devrait confirmer cela. Lien vers Hype Cycle générique, lien vers Hype Cycle 2014.

D’après ma vision du marché français, bien que limitée, j’imagine 3 types de limites possibles au développement médiatique du Big Data : des technologies décevantes, un manque de compétences et un impact éthique loin d’être négligeable.

Les technologies « Big Data » sont-elles à la hauteur des attentes?

cloudera_hortonworks_mapr

Pour être honnête je trouve moi-même une telle question un peu naïve car bien évidemment tout dépend des attentes. Pour ceux connaissant bien la technologie Hadoop et les solutions existantes (Cloudera, MapR, HortonWorks) il ne peut pas y avoir de trop mauvaises surprises, je parle donc des attentes qu’on retrouve dans la littérature moins spécialisée.

Globalement les technologies Big Data n’ont pas usurpé leur réputation car elles permettent, entre autres, de :

  • stocker de la donnée à un coût au Go défiant la concurrence historique
  • stocker des données de tous types (cf le V de variété pour les fameuses données non structurées – images vidéos sons textes médias sociaux objets connectés)
  • répartir les traitements sur des serveurs en parallèle avec une puissance démultipliée (calculs distribués)
  • réaliser des analyses en temps réel (grâce à la puissance de calcul)
  • s’adapter aux besoins : s’il faut doubler la capacité c’est possible, il suffit de rajouter des nœuds et/ou des serveurs et le tour est joué; pas besoin de tout casser et tout reconstruire!

Par contre, la mariée est forcément un peu trop belle :

  • le coût incrémental au Go est effectivement faible mais le coût des licences est loin d’être négligeable (pour une entreprise de taille conséquente cela peut aller de plusieurs centaines de k€ à plusieurs M€)
  • il est tout à fait possible de stocker des données non structurées… mais les exploiter reste complexe car il faut les préparer et les structurer avant de les analyser : le Big Data n’est pas « magique »
  • il n’est pas facile de tirer tous les bénéfices d’une puissance distribuée : cela nécessite soit des solutions analytiques qui le font automatiquement soit de le gérer à la main; attention car répartir un calcul algorithmique sur plusieurs nœuds demande un degré certain d’expertise
  • la technologie Hadoop, sans vouloir trop rentrer dans les détails, n’est pas encore parfaitement adaptée à des systèmes opérationnels/transactionnels (batchs vs événements); il faudra encore quelques progrès pour qu’elle puisse facilement remplacer les systèmes CRM existants. Ceci est à mettre aux regards des besoins analytiques ou BI (reporting) qui peuvent déjà être très bien pris en compte

Ces quelques limites technico techniques peuvent avoir un côté déceptif pour ceux qui voyaient un Big Bang immédiat sur tout l’univers de la donnée. Toutefois j’ai peu de doutes sur le fait que les barrières vont être levées progressivement : d’une part la version 2 d’Hadoop a déjà permis de gros progrès (cf article assez clair sur le sujet) prouvant que la situation évolue, d’autre part par nature toutes ces solutions sont souples et adaptables. Finalement, technologiquement parlant, si le buzz du Big Data va s’atténuer cela sera probablement plus lié au fait que ces infrastructures seront devenues des standards qu’à cause d’éventuels blocages.

Le manque de compétences peut-il étouffer la flamme Big Data?

DSDSTI

Fin 2012 la très sérieuse Harvard Business Review présentait le métier de Data Scientist comme le plus sexy du monde (cf article). Dès lors la Data Science est devenue LE domaine d’avenir! On y retrouve des compétences statistiques, informatiques et business avec une pénurie annoncée de plusieurs centaines de milliers d’emplois dans les années à venir. Personnellement je crois plus à un modèle avec des équipes pluridisciplinaires que des moutons à 5 pattes (cf article « Tu seras data scientist ma fille« ), cela n’empêche que les profils Data Science sont effectivement très difficiles à trouver, j’en ai fait l’expérience.

En France de nombreuses formations se mettent en place pour pallier à ce manque : soit en adaptant des cursus existants (ENSAE, ENS Cachan, UMPC, Telecom Nancy etc…), soit en créant des Masters Spécialisés (Telecom Paris, ENSAI etc…) soit en se montant de toutes pièces (Data Science Tech Institute). Par ailleurs les cabinets de conseil ou instituts de formation ajoutent à leurs catalogues des formations courtes pour s’initier ou se spécialiser, de quelques jours à quelques semaines. La pénurie de compétences devrait donc durer quelques années mais l’offre va finir par s’adapter à la demande.

Ceci dit ce manque de formations disponibles, bien que gênant pour mener des projets Big Data, génère à lui tout seul un buzz médiatique extraordinaire. A mes yeux le plus déceptif pour une entreprise se lançant dans le Big Data n’est pas la difficulté à recruter des Data Scientist (tout le monde sait que ces profils sont encore très rares) mais tout simplement la difficulté à trouver des ressources, qu’elles soient internes ou externes, qui maîtrisent suffisamment les technologies pour mettre en place un environnement technique Big Data qui servira d’outil aux Data Scientist.

Cette pénurie de compétences SI est, elle, de nature à ternir l’image du Big Data! On ne parle pas de job sexy, on ne parle pas de nouvelle matière (ça reste des SI) MAIS pour autant un projet Big Data peut patauger tout simplement parce que personne en interne ne sait développer et installer un Data Lake. Parfois mêmes les consultants accompagnant le projet découvrent ces technologies au fur et à mesure de l’installation. Bref, là aussi le temps permettra à tous d’acquérir l’expérience suffisante (notamment les plus motivés devenant alors incontournables) toutefois la phase de transition risque d’en frustrer quelques-uns ne voyant pas leurs initiatives avancer assez vite.

L’éthique sera-t-elle un frein ou bien un guide pour le Big Data?

CNILSnowden

Une fois les technologies en place avec des personnes compétentes pour les utiliser encore faut-il vouloir et pouvoir les exploiter librement. Avec la multiplication des cas d’usages Big Data le sujet de l’éthique est en passe d’arriver sur le devant de la scène.

Cette question englobe en réalité souvent 3 niveaux de réflexion que j’essaie de décrire ainsi: le légal (les aspects CNIL), l’éthique qui fait appel au sens moral des entreprises et le philosophique qui pose des questions profondes de société à long terme.

La loi Informatique et Libertés est-elle incompatible avec le Big Data?

Au niveau légal la réglementation française Informatique et Libertés est considérée comme stricte (vs les pays anglo-saxons) : les données à caractère personnel ne peuvent être collectées et traitées que de manière « loyale et licite » nécessitant d’obtenir un accord préalable des individus et de ne pas les utiliser pour autre chose. Par ailleurs certaines données dites sensibles sont tout simplement interdites de collecte ou traitement: les données de santé (il existe quelques exceptions), origines raciales, opinions politiques, religieuses etc… Enfin, les données doivent être exactes et complètes,  avec la possibilité pour les individus d’y accéder, de les corriger et les effacer si besoin. En gros, pour une entreprise standard (donc ni la sécurité sociale ni la sécurité intérieure par ex.), les données doivent être utilisées en toute transparence.

Certains pensent que ce cadre ne permet pas suffisamment de chercher et innover: le Big Data revient à fouiller dans des masses de données, donc impossible de prévoir une finalité à l’avance. D’autres trouvent qu’il y a trop de contournements possibles ou points limites : les cookies des sites internet sont-ils des données personnelles? une entreprise peut-elle fournir une finalité de traitement vague? les données des réseaux sociaux sont-elles publiques? etc… Ce débat est en cours depuis plusieurs années et la CNIL s’adapte pour essayer de ne pas être un frein à l’innovation tout en protégeant les libertés individuelles. L’Union Européenne joue également un rôle prépondérant car une loi, après des années  de tergiversation, devrait aboutir  en 2015 ou 2016 (tripartite cet été).

J’ai personnellement une vision assez pragmatique qui n’engage que moi: à date ce qui peut freiner l’innovation en France n’est pas la loi (qui je le rappelle ne touche que les données à caractère personnel, tout le reste est exploitable à volonté) mais plus les démarches administratives associées à la loi : la CNIL est peu réactive en cas de sollicitation, les demandes d’autorisation mettent un temps certain à aboutir etc… A noter de vrais progrès ces dernières années sur la question des démarches CNIL avec l’apparition de packs de conformité sectoriels qui simplifient la vie sur des familles de finalités (des packs Logements Sociaux, Energie et Assurance ont été mis en place, un pack Banque est en cours).

Y-a-t-il des choses, pourtant légales, que les entreprises doivent s’interdire?

En parallèle des questions légales se posent des questions éthiques car, soyons clairs, la plupart des clients d’une marque n’ont aucune idée de ce qui est fait de leurs données personnelles: oui la loi prévoit une information et un accord explicite, oui la loi prévoit un accès aux données, oui la loi prévoit aussi la possibilité de les modifier. En réalité quasiment personne ne lit les mentions légales et rares sont les gens à demander une mise à jour ou suppression de ce qui les concerne. Cela revient à dire que les entreprises peuvent respecter la loi sans pour autant être bienveillantes vis à vis de leurs clients. Reste donc à chacun de choisir jusqu’où ils peuvent/veulent aller sans risquer un scandale lié à une mauvaise exploitation des données clients, scandale pouvant gravement ternir une image. A titre d’exemple on peut citer le cas de la banque ING aux Pays-Bas qui a dû faire face à des accusations sur la vente de données clients; ces accusations fausses sont arrivées suite à une première communication un peu floue sur un projet d’expérimentation Big Data, bien qu’ING ait rapidement démenti son image a été écornée par les virulentes réactions reprises en chaîne par les médias néerlandais (cf article de l’excellent « C’est pas mon idée« ).

Personnellement dès que j’en ai l’occasion je m’efforce d’enfoncer quelques portes ouvertes: « une relation client n’est viable que dans la confiance, sans pour autant sur-communiquer sur l’exploitation interne des données il faut pouvoir être 100% transparent, si un projet peut être de nature à choquer des clients alors non seulement il ne faut pas communiquer dessus mais en plus il ne faut pas le faire! ». Cet usage responsable des données ne permet peut être pas une innovation à outrance mais limitera le buzz négatif sur l’utilisation des données personnelles, buzz qui pourrait tout à fait être à l’origine des désillusions attendues.

Quelle place souhaitons-nous faire aux données dans notre société?

En captant, mesurant et analysant toujours plus d’informations certaines questions assez profondes et variées se posent : jusqu’où un état peut contrôler les données personnelles pour assurer la sécurité des citoyens? le système médical doit-il alerter les personnes sur leur probabilité d’avoir telles ou telles pathologies graves en analysant les molécules d’ADN? peut-on accepter d’être automatiquement passé au détecteur de mensonges quand on déclare un vol? la sécurité sociale doit-elle scanner les réseaux sociaux pour identifier les faux arrêts maladies? etc.

Qu’on le veuille ou non nos vies digitales ne sont ni anonymes ni invisibles: tout est tracé. Technologiquement rien n’empêche alors un « Big Brother » total si ce n’est le coût (qui baissera inévitablement) et les lois répondant plus ou moins indirectement aux attentes des citoyens.

Sans pouvoir chiffrer ceci précisément ces questions philosophiques se posent de plus en plus, avec notamment des débats très politisés depuis l’affaire Snowden. Quel que soit l’avenir du Big Data il y aura, dans les années à venir, une contestation de plus en plus grande autour de l’utilisation des données personnelles, contestations qui noirciront le tableau du Big Data. Le meilleur exemple étant le « USA Freedom Act » promulgué par Barack Obama en juin 2015 pour limiter les moyens de surveillance de la NSA, véritable retour en arrière par rapport à l’esprit des 10 dernières années. Il n’y a pas vraiment de raison pour que la France ne connaisse pas cette même phase dans quelques temps.

 

En partant du principe que le Gartner a raison, i.e. que l’engouement suscité par le Big Data va chuter, je conclurais en précisant que les principales déceptions opérationnelles ne viendront pas des technologies mais bien du manque de compétences SI pour les mettre en place et les faire vivre. Le manque de compétences « Data Science » ne sera lui pas un frein et participe plutôt au buzz positif. Enfin, et c’est probablement le plus important, les questions légales/éthiques/philosophiques générées par l’utilisation et la place des données personnelles dans nos sociétés vont certainement être à l’origine des futures désillusions. A noter qu’un tel exercice prospectif n’est pas simple et méritera une réactualisation tous les ans pour voir où en sont les technologies, les compétences et le cadre éthique! RDV pris.

Big Data : les 5 tendances des prochaines années

La grande messe annuelle française du Big Data s’est tenue les 10 et 11 mars derniers à la Défense, ce fut l’occasion de confirmer le début du 2ème âge des « mégadonnées » en France (Salon Big Data Paris 2015). Il s’agissait de la 4ème édition avec toujours plus de conférenciers (une centaine), de stands (une centaine aussi) et de visiteurs.

Le nombre de produits et services autour du Big Data ainsi que la variété des usages illustrés pendant ces 2 jours ont appuyé un message qui semblait faire consensus. Ce message fut notamment passé par les intervenants de Cap Gemini (qui citaient une étude réalisée par leurs soins): 2014 fut une année de transition entre un premier âge où la plupart des entreprises se demandaient s’il fallait se lancer dans le « Big Data » et une nouvelle ère (disons à partir de 2015) avec des expérimentations, plus ou moins avancées, un peu partout. Leur étude a montré que mi 2014 près de 2/3 des décideurs étaient persuadés que le Big Data allait changer leur business, il y a même 1/4 d’entre eux qui considéraient que leur marché avait déjà dû faire face à une rupture initiée par de nouveaux arrivants.

Bref, le Big Data, même en France, est un sujet présent dans la plupart des roadmaps au sein de tous les secteurs. Au-delà de ce constat qui appuie bien l’idée d’un mouvement de fond et non pas d’un simple effet de mode, les dernières études et conférences ont mis en avant quelques tendances notables. Voici ce que je retiens aux niveaux technologiques, usages analytiques, usages business intelligence, organisationnels et éthiques.

BIG_DATA_PARIS_2015

1) Hadoop toute! Mais quid du SI décisionnel?

Les solutions d’infrastructures dites « Big Data », i.e. celles construites sur du Hadoop, n’ont pas changé: Cloudera, Hortonworks etc… Par contre une tendance nette, confirmée cette année, est que tous les grands noms de la donnée se sont adaptés et sont désormais « compatibles Hadoop » : ils construisent des solutions autour d’Hadoop. Ceci est vrai pour ceux proposant des infrastructures (Teradata, SAP, Oracle) ainsi que ceux qui « exploitent » la donnée à des fins de Business Intelligence (tableaux de bord) ou des fins analytiques comme par exemple SAS, IBM (SPSS), SAP (InfiniteInsight), etc…

Sauf erreur de ma part il n’existe plus un seul éditeur ne proposant pas de telles solutions que ce soit pour du stockage, du traitement, de la visualisation ou de l’analyse de donnée. Ce phénomène n’est pas nouveau mais il confirme que le modèle distribué (Hadoop) s’est totalement imposé.

La question suivante est donc de savoir si ce type d’infrastructures va remplacer l’existant et notamment les SI décisionnels traditionnellement bien structurés, administrés et très fiables? Très honnêtement il est difficile de se faire une religion sur ce point, la seule certitude est qu’il s’agit bien de LA question du moment (en tout cas sujette à de nombreuses discussions). D’un côté les modèles distribués ont un coût de stockage faible et un potentiel énorme devant eux (de nombreuses améliorations devraient arriver), de l’autre les modèles standards de base de données sont fiables, assurent l’activité opérationnelle (le transactionnel, le décisionnel etc…) et sont bien structurés donc simples à administrer.

A l’heure qu’il est la plupart des fournisseurs proposent des modèles hybrides pour ne pas casser l’historique: le décisionnel classique subsiste avec en parallèle la création de lacs de données pour ingérer les données non structurées mais aussi décharger à moindre coût tout ce qui n’a pas forcément sa place dans les bases structurées (de l’historique très volumineux par exemple). Est-ce une première étape vers du 100% Hadoop? Oui sûrement un jour nous y serons mais, vu l’ampleur des projets, les entreprises avec un héritage SI lourd mettront un temps certain pour y arriver.

A noter, remarque toute personnelle, que les termes « décisionnel » ou « transactionnel » font penser à des structures de système d’information alors qu’en fait il s’agit d’un usage. Ainsi, d’un point de vue purement sémantique, à moyen/long terme si la tendance se confirme le « décisionnel » ne disparaitra pas pour autant, il s’appuiera juste sur une infrastructure type Hadoop.

 2) Des usages analytiques qui continuent de se diversifier, avec une récrudescence des exemples RH

IBMWatsonAnalytics

Sans surprise tout ce qui tourne autour de la connaissance client est systématiquement cité: détection de clients churners (qui quittent une marque), modélisation des meilleurs parcours clients, analyse des attentes clients,  etc… Autant de thèmes que l’explosion des sources de données permet de comprendre plus finement.

D’autres nombreux cas d’usage ont aussi été abordés:

  • comme  la lutte contre la fraude fiscale  avec de l’analyse de réseaux (cf article de l’iFRAP sur la lutte anti fraude fiscale)
  • de l’écopilotage grâce à l’analyse des informations au décollage, le but étant d’économiser du carburant lors de la montée de l’appareil
  • des nouveaux services autour du stationnement par Parkeon (leader des horodateurs): application grand public pour trouver des places libres! (en test à New York, cf article)

Enfin, un domaine a donné lieu à de nombreuses illustrations innovantes et a probablement un bel avenir devant lui: l’exploitation des données pour une meilleure gestion RH. En effet, à titre d’exemple, le salon a été l’occasion d’entendre parler d’un projet de Randstad qui utilise le Big Data pour matcher les CV et Offres d’emploi, au départ les données étaient purement internes alors que maintenant elles sont aspirées depuis tout le web (dont les réseaux sociaux professionnels). IBM a aussi fait une excellente démonstration de Watson Analytics appliquée à l’analyse de la rétention des employés (quels leviers pour fidéliser les employés? cf article). L’apport des approches analytiques sur l’activité RH a été fortement appuyé et je pense qu’il ne s’agit que du début d’une vraie déferlante d’applications de ce type (d’autant plus que les directions RH sont traditionnellement peu équipées en compétences « Data Science »).

3) Le Big Data ne se limite pas à l’analytique ou le prédictif

BI

La force prédictive du Machine Learning fait rêver et génère un grand nombre de projets (cf paragraphe ci-dessus), pour autant la tendance forte du moment réside presque plus dans l’intégration de ces technologies dans la Business Intelligence, tout particulièrement dans la Data Visualisation (sous partie de la BI).

Petit aparté sur la définition de ces termes: la Business Intelligence ou « BI » correspond à la science des tableaux de bords, il s’agit d’aider au pilotage d’une entreprise et à la prise de décision grâce à des reporting dynamiques, sur-mesures et percutants; la Data Visualisation est la capacité à représenter des données de manière visuelle pour les faire parler (graphiques, réseaux, bulles, flux, nuages etc…).

Au départ ce domaine n’est pas forcément lié au Big Data car avoir un reporting efficace ou un graphique compréhensible était déjà compliqué sur n’importe quelle base conséquente. Par contre la multiplication des sources de données (notamment les non structurées) ainsi que la capacité à les collecter en temps réel a remis ces sujets sur le devant de la scène. Dans cet écosystème tous les acteurs présentent maintenant leurs solutions compatibles Big Data et promettent de tirer le maximum de ces nouvelles montagnes d’information; Qlik et Tableau tirent le marché suivi des noms historiques (Business Object de SAP, Cognos d’IBM, Microsoft, Microstrategy). Tout ceci est bien entendu complété par une multiplication des start-up sur ce thème là (Captain Dash, Vize, MyDataBall etc…).

Ce n’est peut-être pas là que le Big Data va le plus impacter les business modèles des entreprises mais le sujet de la BI et de la Data Visualisation n’est pas prêt de se tarir, avec probablement un marché qui va croitre et évoluer très vite dans 2 à 5 ans à venir (fusions, rachats, nouveaux venus etc…). Cf le Magic Quadrant Gartner sur la BI.

4) Des organisations pas encore prêtes à prendre le virage

L’ensemble des exposants ayant parlé de leurs propres expériences (SFR, Néopost, Solocal, Cap Gemini etc…) ont tous cité, en tête de liste, l’aspect humain comme facteur de réussite ou échec. Là on enfonce un peu une porte ouverte mais il est clair que les sujets Big Data ont des impacts lourds: nouveaux métiers (Data Science), gouvernance de la donnée, sujets transverses, projets agiles etc… Comme tout sujet nouveau cela suscite de la crainte, la résistance au changement est inéluctablement un frein à l’installation du Big Data dans les entreprises.

Ainsi les témoignages insistent sur le fait que finalement les difficultés concernent moins les technologies (car les solutions sont maintenant matures) ou les compétences (car cela s’acquiert) que l’aspect humain qui est souvent, à tort, relayé au dernier plan. A part les start-up nées à l’ère digitale tout le monde est confronté à cette problématique. Pour y faire face je n’ai pas entendu de recette miracle, les recommandations sont plus un patchwork d’actions de change management: faire participer un maximum de personnes à la construction des projets, communiquer de manière rassurante, former les collaborateurs à la fois pour de l’acculturation mais aussi pour avoir de vrais experts ambassadeurs, etc…

Au final la question revient à se demander s’il faut tester le Big Data de manière un peu confidentielle (pour aller vite) avant de lancer un programme plus large légitimé par les expérimentations, ou bien dès le départ prendre le temps d’éduquer, communiquer et co-construire même les premières expérimentations (au risque d’avancer très lentement). Pas sûr qu’il y ait de bonne ou mauvaise posture sur ce point car la décision se situe à un niveau stratégique et dépend de la situation et des besoins de l’entreprise.

 5) Tous responsables du défi éthique

Ethic

Les réglementations en place protègent les consommateurs contre une exploitation de leurs données personnelles, en effet chaque collecte de donnée impose une autorisation « éclairée » de son futur usage. Ces réglementations sont cependant plus souples notamment aux Etats-Unis et au Royaume-Uni; par ailleurs le côté innovant et exploratoire du Big Data ne pourra pas toujours respecter de telles contraintes et certains contournements ou abus seront probablement à déplorer.

Sans pouvoir systématiquement compter sur les états ou administrations les utilisateurs des données devront s’autoréguler sans se cacher derrière les avancées technologiques. Doug Cutting lui-même (père fondateur du Big Data – Hadoop) l’affirme : « la technologie va permettre de changer le monde, à nous de faire qu’il change en bien » (en s’adressant à une salle de décideurs du Big Data en entreprise). Globalement le discours est à la responsabilisation de chacun, à une régulation de marché secteur par secteur car les organismes de contrôle ne pourront pas tout voir ni tout anticiper.

Ceci est facile à dire alors qu’on sait qu’en réalité le « tous responsables » fonctionne rarement. J’invite toutefois, dès que l’occasion se présente, chacun à travailler les données « en toute transparence, comme s’il était possible d’expliquer son travail en détail à des clients sans les choquer », ceci n’est pas juste utopiste mais sain à long terme pour une relation viable avec ses clients. Les quelques-uns qui peuvent survivre sans être vraiment transparents sont en général en position de monopole avec un service inégalé à ce jour (Facebook, Google par exemple, cf article transparence Facebook); ces exceptions ne pourront pas servir de règle et j’aurais peu d’espoir pour l’avenir d’une entreprise qui aurait des pratiques inavouables.

 

Voilà pour les dernières tendances, en partie piochées lors du salon Big Data Paris 2015, qui seront à suivre l’année prochaine. Je pourrai alors, dès mars 2016, confirmer ou ajuster ces prévisions!

Le Big Data ne sonnera pas le glas de l’assurance, enfin on verra…

Le Big Data permettrait de tout comprendre, tout savoir, tout voir, tout prédire et ouvrir la porte d’un nouveau monde où les entreprises connaitraient parfaitement leurs clients afin d’individualiser leurs produits (qui va acheter quoi? à quel prix? par quel canal?)…

L’assurance n’échappe pas au phénomène et les assureurs vont pouvoir mieux connaitre les risques de leurs clients afin de leur proposer un prix « juste »: n’est-il pas logique qu’une personne ayant une forte probabilité d’avoir un dégât des eaux paie son assurance plus chère que son voisin qui a refait toute sa plomberie? En tout cas les assureurs souhaiteront attirer le profil moins risqué (en lui proposant un bon prix) au détriment de l’autre qui les intéressera moins. En poussant ce raisonnement à l’extrême si chacun verse à son assureur exactement le montant des sinistres qu’il aura alors les assureurs ne servent plus à rien et le concept même de mutualisation des risques est mort. Cette idée que le Big Data pourrait être le chant du cygne de l’assurance, bien que caricaturale, mérite d’être creusée et fait de toute façon déjà pas mal parler d’elle dans la presse spécialisée (cf La Tribune qui pose exactement cette question).

J’ai personnellement un avis assez nuancé sur la question car oui le Big Data impactera le coeur de l’assurance (la mutualisation des risques) mais non le secteur ne disparaitra pas, son modèle va plutôt progressivement muter. Voici sur quoi s’appuie mon relatif optimisme.

L’aléa vivra

Des

Je parle à la fois de l’aléa au sens statistique ainsi que celui au sens « vision client » du terme (l’inconnu au sens large).

D’un point de vue mathématique l’aléa est l’écart entre le modèle théorique (aussi parfait soit-il) et les mesures observées. Cet écart suit une loi normale de variance non nulle. Par définition si vous modélisez un phénomène, quelle que soit la qualité du modèle, vous aurez des erreurs imprévisibles car aléatoires. Si votre modèle est bon la seule chose dont vous pouvez être sûr c’est qu’avec suffisamment d’observations les erreurs s’annulent entre elles (la moyenne des écarts tend vers 0 – cf la loi des grands nombres). Cette erreur ou aléa, appliquée aux risques peu fréquents de la vie, aura toujours besoin d’être couvert et le fait de les mutualiser sera le meilleur moyen de les neutraliser.

Par ailleurs il faut garder en tête qu’un modèle statistique calcule une probabilité de survenance d’un événement. Les modèles classiques ne donnent pas que des résultats à 0 (ça n’arrivera pas) ou à 1 (ça arrivera), il y a systématiquement une probabilité associée et la question du « que dois-je faire de celui qui a une probabilité de 50% » se posera toujours, ceci n’est pas un aléa au sens mathématique mais bien une incertitude aux yeux du client (et de l’assureur).

Prenons par exemple le cas (fictif et illustratif) de l’assurance ski. Imaginons qu’un accident de ski coûte en moyenne 2000€ et qu’il arrive 0,1% du temps (par jour), alors le bon prix de l’assurance et 2€ par jour. De manière basique l’assureur propose une couverture de 2€ par jour et par personne à tout le monde (hors frais de gestion et profit attendu), avec un modèle prédictif l’assureur va affiner sa connaissance du risque est trouvera peut-être des personnes avec risque très faible (il pourra proposer une assurance à 0,5€) et quelques personnes avec un risque plus élevé (il pourra proposer une assurance à 10€), ainsi que très probablement toute une liste d’individus « moyens ». Au final les clients auront toujours à choisir s’ils veulent souscrire une assurance sans jamais être certain d’avoir ou non un accident.

Je veux dire par là qu’un modèle plus performant se trompera moins, il donnera des probabilités  plus précises mais ne fera pas disparaitre l’incertitude concernant un individu en particulier.

Il est toutefois facile de contre argumenter en disant qu’a posteriori la notion de probabilité ne veut rien dire car les gens ont soit eu un accident au ski (1) soit non (0), alors pourquoi un modèle idéal ne trouverait pas tous les 0 et les 1 à l’avance? Oui il est indéniable qu’après coup les résultats sont 0 ou 1; mais peut-on réellement croire que tout est écrit à l’avance et donc que tout est prévisible? que rien n’est aléatoire, même pas un tirage à pile ou face (le Big Data pourra-t-il faire mieux que répondre 50/50 à un tirage à pile ou face?)? Ceci tient du débat philosophique mais pour ma part je penche plus pour l’approche probabiliste car nous vivons dans un monde réel et donc limité (cf théorie du chaos), ceci n’engageant que moi.

Quoi qu’il en soit il y a consensus sur le fait que Big Data permettra d’affiner la prédictibilité des événements. Mais attention car la précision se jouera aussi, voir surtout, sur l’échelle temps…

La dimension temporelle comme paramètre fondamental

Temps

Affirmer brutalement que « grâce au Big Data tout sera prévisible » c’est omettre un point clé du raisonnement: la dimension temps.

En effet les modèles sont d’autant plus précis que l’on est proche de l’événement. On peut par exemple citer la météorologie où les prévisions ne sont considérées comme fiables (hormis les grandes tendances) seulement pendant quelques jours voir quelques heures. De même pour reprendre l’exemple de l’assurance: les données pourraient permettre de détecter qu’une voiture va avoir un accident si les détecteurs captent que le véhicule rentre trop vite dans un virage verglacé… mais prévoir cela 1 an à l’avance de manière certaine relève de l’impossible. En marketing un outil comme CRITEO (qui achète en temps réel les bannières publicitaires sur internet – retargeting) base l’essentiel de son modèle sur les informations récoltées les jours et même les secondes précédents le clic potentiel.

Bref, être capable de prédire un événement devient chaque jour plus facile grâce à l’explosion du volume des données mais aussi et surtout au temps réel; donc à partir du moment où un contrat se signe sur une durée « longue » mêmes les meilleurs modèles ne pourront donner « que » des probabilités d’occurrence sans garantie sur les sinistres à un an/mois… Comme j’ai du mal à imaginer qu’un assureur puisse un jour avoir le droit de résilier un client en temps réel 1 minute avant son accident (c’est contraire à l’engagement contractuel) la part de l’aléa demeurera non négligeable.

La prédictibilité, à la signature d’un contrat, ne sera donc pas parfaite mais va quand même s’améliorer. La question naturelle qui suit est alors de savoir si les assureurs ne risquent pas d’exclure toutes les personnes détectées avec un risque élevé, soit officiellement soit par un prix prohibitif. Ceci n’étant pas vraiment en ligne avec les valeurs de solidarité sur lesquelles reposent pourtant la logique assurantielle. Pour être honnête cette question se posera sûrement (elle se pose déjà d’ailleurs et pas que dans l’assurance, je pense que tous ceux qui cherchent un crédit immobilier me comprendront). C’est pourquoi les assureurs auront 2 choix face aux clients identifiés comme « risqués »: les bannir ou les aider à faire baisser leur risque. C’est ainsi que la posture des « bons » assureurs qui souhaitent un développement économique durable va se modifier, leur objectif ne sera pas de refuser en bloc les clients à risque mais de les aider à diminuer leurs sinistres!

La prévention comme nouveau champ de bataille

PHYD_DA

En incitant les clients à conduire de manière responsable (les fameuses offres « you drive » de Direct Assurance), en les incitant à installer des capteurs intelligents dans la maison (détecteurs de fumée Nest avec Allianz) ou en les incitant à avoir une activité physique (« Pulsez votre santé » avec AXA) certains assureurs sont déjà en train de tester ce type de fonctionnement. Cet aspect prévention complète l’assurance traditionnelle et rend le modèle à la fois vertueux pour les clients (qui bénéficient d’un service à vraie valeur ajoutée) et économiquement viable pour les assureurs. Savoir que M. X est un client à fort risque sur la santé ne servira pas à l’exclure mais à prévenir l’incident avant qu’il n’arrive.

Cette exploitation positive de la connaissance des risques peut sembler naïve mais j’y crois: d’une part car les exemples en ce sens se multiplient dans le secteur et d’autre part car, à l’ère digitale, l’exploitation des données en temps réel pour mieux servir ses clients est possible par tous; si les assureurs ne le font pas pour leurs assurés d’autres s’en chargeront, ces « autres » venant sûrement de secteurs aujourd’hui loin de l’assurance…

 

En conclusion je dirais qu’il est indiscutable que le Big Data va profondément impacter le secteur de l’assurance : l’aléa va diminuer et les risques seront de plus en plus prévisibles. Cependant le fait que la relation assureur-assuré soit contractuellement inscrite dans la durée et que l’erreur statistique persistera, milite en faveur d’un maintien du besoin de couverture, besoin à la baisse mais bien existant.

A terme, et c’est ma conviction, l’utilisation des données permettra d’avoir un système assurantiel avec 2 fonctions: couvrir les aléas qui, immanquablement, subsisteront et prévenir au maximum les sinistres. Cela réduira-t-il ou augmentera-t-il le poids du secteur? Difficile de se prononcer, rendez-vous dans quelques années pour faire le point!

 

Quelques liens utiles: Article des échos qui s’interroge sur l’avenir de la mutualisation, Article Data-business sur l’assurance, Article La Tribune sur l’offre PHYD de Direct Assurance, Fauve que j’ai plagié en début d’article.

Big Data : la Statistique Appliquée 3.0?

Le phénomène Big Data est avant tout présenté comme une rupture technologique qui permet, à des coûts raisonnables, de traiter des données en masse de tous types avec une performance inimaginable il y a quelques années. Vient ensuite l’aspect culturel : « les décisions seront de plus en plus prises en connaissance de données », « la data devient une matière première », « les compétences analytiques seront nécessaires dans tous les domaines » etc…

Concernant les méthodes statistiques la littérature résume le changement en 2 points :

  • les nouvelles approches sont à la croisée de l’Informatique et de la Statistique; on parle de Machine Learning (auto-apprentissage) où les algorithmes génèrent plus ou moins tous seuls des modèles sur d’importants volumes de données
  • ces méthodes ne sont en fait pas nouvelles car le Machine Learning date des années 1960; ce retour sur le devant de la scène est dû au fait que ces techniques fonctionnent particulièrement bien sur de grandes quantités d’information

Ce raccourci concernant le traitement analytique du Big Data est, il me semble, plutôt juste; j’ai toutefois l’impression que le sujet est complexe et mériterait quelques précisions.

En effet si le Big Data n’impliquait que de dépoussiérer quelques vieilles méthodes le virage ne serait pas si compliqué à prendre pour les statisticiens et toute l’effervescence autour du sujet (notamment académique) ne serait pas justifiée. Ce que je vois autour de moi m’indique exactement l’inverse : des statisticiens en entreprise (dataminers) un peu perdus et un foisonnement de projets statistiques comme je n’en ai jamais vu (nouveaux outils, nouveaux algorithmes, formations, travaux de recherches etc…).

NB : l’exercice consistant à présenter l’évolution de la Statistique Appliquée à l’ère le Big Data est loin d’être facile, avec sans aucun doute de probables imprécisions dans les lignes ci-dessous. Toutes remarques ou compléments d’information sont donc plus que les bienvenus. Par l’adjectif « appliquée » j’entends l’utilisation opérationnelle, en opposition à la partie purement théorique.

Une histoire qui n’en est pas à sa première rupture

Gauss3

Les statistiques ont pour objectif d’être une aide à la décision. Que ce soit descriptif (qui sont mes clients? Sont-ils significativement différents de ceux de mes concurrents? etc…) ou prédictif (quels clients vont résilier leur contrat? quels seront les comportements d’achat l’année prochaine? etc…). Entre les recensements de l’Empire romain et la détection des indécis lors de la dernière campagne d’Obama le spectre opérationnel de cette science s’est considérablement élargi, avec quelques étapes notables.

La Statistique Appliquée 0.0 est celle, en gros, d’avant le XVIIème siècle où on compte pour recenser et connaitre ses forces et faiblesses : soldats, naissances, ventes etc…

Du XVIIème à la moitié du XXème la Statistique Appliquée 1.0 a connu une extraordinaire période de théorisation. Tout a démarré par des représentations graphiques (versus de simples tableaux de chiffres) et des calculs probabilistes simples (quelle rente viagère puis-je espérer d’ici 10 ans?). Au XIXème l’apparition de la fameuse loi normale (courbe de Gauss – permettant de modéliser les erreurs) a été fondamentale pour toute la théorie traditionnelle, notamment pour la statistique inférentielle qui a émergé au début du XXème (capacité à travailler à partir d’échantillons pour en déduire un résultat global).

La Statistique Appliquée 2.0 est née grâce à l’avènement de l’informatique dont la formidable capacité de calcul a permis d’élargir le champ d’application :

  • généralisation de tous les tableaux de bords divers et variés en entreprise
  • véritable explosion de l’Analyse De Données qui permet de comprendre et décrire des informations avec de nombreuses dimensions (son développement avait démarré au début du XXème mais l’informatique a rendu son exploitation possible)
  • utilisation « industrielle » de modèles prédictifs complexes (par exemple les régressions logistiques pour accorder ou non les prêts bancaires)
  • élargissement à des méthodes non traditionnelles et qui viennent plutôt de l’informatique (intelligence artificielle) : arbres de décision, réseaux de neurones, SVM etc…

Bref, la Statistique Appliquée s’est enrichie pour devenir du Datamining (littéralement exploitation de la data), tout cela grâce à l’informatique.

Une nouvelle mutation impulsée par les données

svm

La révolution technologique Big Data a pour conséquence de radicalement changer le paysage de la donnée : des quantités quasi sans limite, des sources et formats très divers, des bases irrégulières (renseignements partiels, pas toujours de qualité etc…) et une obsolescence beaucoup plus rapide.

Ce contexte induit 3 changements majeurs :

  • l’analyse prédictive devient simple et pertinente, son utilisation quotidienne va s’imposer dans les entreprises (quand un client est géolocalisé dans le terminal 2 de l’aéroport CDG il y a des chances qu’il parte à l’étranger)
  • cette analyse prédictive, par la nature même des nouvelles données, fonctionne mieux avec les méthodes non traditionnelles type Machine Learning
  • la précision d’une prévision dépendra presque plus de la richesse des sources que du modèle utilisé (cf article sur le concours SNCF où l’on ne parle que de sources de données!)

Philosophiquement le modèle change aussi : jusqu’à présent les données étaient récoltées pour nourrir des modèles statistiques, maintenant les modèles sont à réinventer/adapter pour exploiter au mieux les données disponibles.

Tout reste encore à construire

DataViz

Personnellement j’identifie 2 phénomènes émergents (mais peu cités) au cœur de ce changement.

Tout d’abord le fait qu’on oppose Statistique traditionnelle et Machine Learning ne durera pas éternellement. En effet, au-delà de l’effet mode, les statisticiens et mathématiciens se penchent intensément sur ces méthodes des années 60, en plus de les mettre au goût du jour elles vont être complétées et théorisées (quel que soit le temps que cela prendra).

Par ailleurs l’accent théorique est aujourd’hui mis sur l’aspect prédictif alors même que l’une des problématiques Big Data est la Visualisation des données (souvent citée comme le 4ème V du Big Data, cf article sur les 3V). Les statistiques descriptives (dont l’Analyse De Données) vont naturellement aborder ce sujet : comment décrire, visualiser et interpréter facilement ces nouvelles sources d’information? C’est d’ailleurs déjà le cas de fournisseurs de solution de Visualisation qui expliquent baser leur approches sur des modèles statistiques complexes (Qlik et son moteur d’indexation associative, MyDataBall et son moteur d’arborescences/corrélations).

 

En conclusion les changements induits par les nouvelles données bouleversent la façon de les exploiter, probablement au point d’y voir une rupture majeure. La Statistique Appliquée 3.0 marque le début de l’ère de la Data, avec un accent mis, pour l’instant, sur le prédictif. Bien sûr les méthodes prédictives actuellement à la mode ne sont pas récentes mais le changement est lourd d’une part car elles n’étaient quasiment pas exploitées jusqu’à présent et d’autre part car ça n’est que le début d’une période de travaux intensifs où de nouveaux modèles vont être établis pour s’adapter aux données disponibles.

Quelques liens intéressants : histoire de la Statistique par M. Dutarte, Statistiques et Big Data par Les Dieux de la Stat, Machine Learning et Data Mining

Tu seras Data Scientist ma fille!

Le 20 novembre dernier s’est tenu Data Job, « Plus grand salon de rencontre des métiers de la Data ». Ce salon fut l’occasion d’observer les profils des étudiants et des recruteurs mais aussi de vérifier que la pénurie annoncée de Data Scientist se concrétisait.

Sans surprise les recruteurs principaux étaient des consommateurs historiques de données, je parle notamment les 4 sponsors: Axa (qui recrute pour son Data Lab), EY (aussi pour son Data Lab), Deloitte (audit et conseil) et enfin Quantmetry (conseil en statistiques et Big Data). Les profils des étudiants étaient pour partie issus de l’informatique  mais surtout très majoritairement du monde de la statistique/mathématique (ENSIMAG, UMPC, ENSAE, Ecole des Ponts, ENSAI, ENSTA, ISUP etc…).

Par ailleurs les différentes conférences qui se sont tenues en parallèle du salon ont montré que le secteur recrutait, et qu’il y avait de grandes difficultés à pourvoir tous les postes (Safran, Voyages SNCF, Crédit Mutuel Arkea).

Alors, comme le présente la Harvard Business Review, les Data Scientist ont ils le job le plus sexy du 21ème siècle (data scientist, the sexiest job of the 21st century)?

Personnellement « sexy » je n’en sais rien mais « d’avenir » c’est certain, en effet tous les secteurs et tous les domaines de compétences axent de plus en plus leur activité « en connaissance des données », je veux dire par là que tous ont besoin d’experts capables de manipuler et interpréter les données. Ceci est vrai en marketing pour connaître les clients et le marché, vrai en ressources humaines (recrutement et gestion de carrière), vrai sur les métiers coeurs de la banque (finance), de l’assurance (actuariat) etc…

Donc oui à titre très personnel je pense que si ma fille souhaitait devenir Data Scientist ça ne serait pas forcément un mauvais plan! La question restant « mais qu’est-ce qu’un Data Scientist et comment le devient-on? ».

Nota Bene: au départ je souhaitais appeler cet article « Tu seras Data Scientist mon fils », mais d’une part je ne voulais pas plagier l’article du même nom (article myrhline), d’autre part les femmes représentent moins de 10% des membres des comité de direction (cf article lexpress) – absurdité révoltante dans une société soit disant paritaire…

Le Data Scientist, une utopie?

datascience

La nature du Big Data est pluridisciplinaire: stocker et exploiter les données (informatique) pour les analyser ou modéliser (statistique) afin de les restituer et éclairer les décisions (business analyst). C’est ainsi que le mythe du Data Scientist qui sait tout faire est né.

Soyons clair, celle (ou celui) qui est capable faire tout cela avec un niveau expert sera effectivement un profil rare, recherché (et donc cher) correspondant à la définition complète du Data Scientist. Ces profils auront vocation à se multiplier, mais peut-on raisonnablement croire que tous auront la compétence et surtout l’envie d’être autant multi expertise? Il y aura (comme il en existe déjà) des experts complets de haut niveau qui pourront assumer une telle palette de compétences, par contre autour d’eux c’est probablement toute une structure complète qui sera mise en place avec des profils experts mais moins complets. Je pense par exemple à Axa qui affichait (lors de DataJob) des recrutements complémentaires pour son Data Lab: Data Scientist, Architectes SI, Business Projects Managers.

Les Data Scientist complets seront donc la clé de voute des activités Data des entreprises, alors peut-être même encore plus recherchés que ce que l’on pense.

Quels profils et formations pour devenir Data Scientist?

FormationDataScience

Une question fréquente, et structurante pour la formation, est de savoir de quel univers vont principalement venir les Data Scientist: plutôt informatique, statistique ou généraliste?

Cette question ne peut donner lieu à une réponse catégorique, il semble toutefois se dessiner une filière privilégiée bien que non exclusive: les statistiques et notamment les statistiques appliquées (Datamining, Business Intelligence etc…). Pour ce type de profil devenir Data Scientist signifie ajouter la compétence informatique d’extraction et manipulation de la donnée ainsi que l’algorithmie moins traditionnelle (machine learning). Les recruteurs et formateurs (notamment des responsables de Master Spécialisés Big Data) confirment ce point en expliquant qu’aujourd’hui la plupart des formations en informatique n’abordent que trop peu les mathématiques théoriques, la marche purement académique à franchir est donc souvent trop grande.

Il est possible de répartir les formations selon 3 familles:

  • celles qui créent une filière Data Science, écoles d’ingénieurs ou universités en systèmes d’information ou statistiques; cela peut passer par un ajustement du cursus (ENSAE, Telecom Nancy, UMPC) ou par des formations de spécialisation Bac+6 (ENSIMAG/EMSI, ENSAI) – sauf erreur de ma part toutes ces formations ont été annoncées, au plus tôt, fin 2013 pour démarrage en 2014, ces nouveaux profils ne sont pas encore sur le marché de l’emploi (ou alors en stage)
  • celles, étalées sur 12 à 24 mois, qui s’adressent à des publics soit en fin d’étude soit déjà en poste; par exemple sous forme de Master Spécialisé (Telecom Paris – précurseur du sujet dont c’est déjà la 2ème rentrée – EM Grenoble ou encore ENSAE) ou alors sous forme de certificat (Actuariat Big Data de l’Institut des Actuaires ou Certificat analyse données massives du CNAM – les 2 démarrent tout juste)
  • et enfin celles de quelques jours ou quelques semaines pour impulser la culture Big Data au sein des entreprises: l’institut CEPE (10 jours assez techniques), l’institut Cap Gemini (sur 2 jours) ou data-business.fr qui propose une formation de 2 semaines sur le sujet

Cet univers étant en plein expansion la liste n’est sûrement pas exhaustive, vos commentaires sont les bienvenus pour l’enrichir.

Voici les liens des formations citées: Filière Data Science ENSAE, Filière Data Science Telecom Nancy, Filière Data Science UMPC, Bac+6 ENSIMAG, Bac+6 ENSAI, MS Telecom Paris, MS EM Grenoble, MS ENSAEFormation Actuariat Data Science, Certificat Big Data CNAM, Formation continue CEPE, Formation continue Cap Gemini, Formation continue Data-Business.

Un métier de passionnés avant tout

kaggle

Quel que soit le profil d’origine où la formation suivie les bons Data Scientist auront tous un point commun: la passion de la donnée, curieux de tout savoir sur son cycle de vie: d’où elle vient? comment elle est générée? avec quelle qualité? comment la traiter? comment l’utiliser? comment en interpréter l’analyse? comment la restituer de manière efficace?

Répondre à ces questions demandent une forte curiosité et un haut niveau d’ouverture sur les outils, méthodes et règles métiers; nous sommes donc loin du cliché du statisticien/informaticien scotché derrière son PC.

J’ajouterais aussi qu’aujourd’hui pour se distinguer les plus motivés participent aux concours sur Kaggle.com ou DataScience.net; concours où des entreprises mettent des données en ligne (anonymes bien sûr) et lancent des challenges pour trouver les meilleurs modèles prédisant tels ou tels évènements, les vainqueurs peuvent toucher quelques milliers d’euros. Participer à de tels concours n’est pas anodin, cela demande des jours d’investissement et l’envie de tester de nombreuses méthodes innovantes, illustration parfaite de la curiosité et de l’implication nécessaire pour être un Data Scientist complet.

 

En conclusion je dirais que ce métier, comme souvent évoqué dans la littérature, a un très bel avenir devant lui. Par contre les équipes de Data Science seront plutôt composées de multiples profils SI, Stat et Chef de Projets avec, en leur sein, des piliers rares aux compétences transverses: les Data Scientists. Concernant les formations elles vont continuer à se multiplier dans les années à venir; le véritable enjeu n’étant finalement pas de former de nouveaux diplômés (le démarrage est réel bien que tardif) mais de transformer les entreprises pour qu’elles puissent les accueillir avec des structures et des profils plus séniors prêts à les encadrer.

Quelques liens intéressants: article formations e-orientation, article formations campus.lemonde, article formations data-business.frblog Uman Partners sur les problématiques RH