Quoi de neuf au Big Data Paris?

L’avantage avec un rendez-vous comme le Big Data Paris c’est que l’ampleur de l’événement permet de voir suffisamment de professionnels du sujet pour cerner les grandes tendances, et surtout identifier les changements opérés depuis l’année précédente.

L’édition 2016, 5ème du nom, s’est tenue les 7 et 8 mars au Palais des Congrès à Paris, avec un succès toujours grandissant : des centaines d’éditeurs, prestataires et autres conférenciers étaient présents. Qu’en est-il alors des précédentes observations? Cf article 2015.

BDP2015vs2016

1) Les principales confirmations

Un thème tout juste émergeant en 2015 s’est nettement amplifié : l’éthique. Ceci est vrai à la fois en quantité (de conférences) mais aussi par rapport à la profondeur des interventions. L’expression « Data Science / Big Data Responsable » a été entendue  plusieurs fois, principalement de deux façons:

  • les données personnelles: quelle collecte? quelle transparence sur l’utilisation?  quelle protection? Une bonne illustration de cette mouvance est la création de l’association « Cloud Confidence » pour favoriser la « transparence sur la protection des données clients »
  • l’utilisation même des données dans notre société. A titre d’exemple Quantmetry a lancé une pétition en ligne La Révolution Big Data que nous voulons. Pétition adressée aux jeunes Data Scientist pour une utilisation raisonnée des data, avec des questions du type « quelle place de l’intelligence artificielle ? » – Petite remarque personnelle sur une ONG non présentée mais qui a une démarche superbe: Bayes Impact; ils mettent des compétences en Data Science gratuitement à disposition d’hôpitaux, d’organismes de micro crédit ou récemment de Pôle Emploi

Change

Autre confirmation/amplification : la place des HR Analytics (ou People Analytics) quand on parle de cas d’usage. En début de salon Accenture l’a même citée comme l’une des 5 tendances Big Data (au même titre par exemple que l’omniprésence de l’Internet des Objets ou la croissance des besoins sécuritaires). De nombreux cabinets, comme EY, Cap Gemini (avec F. Galthié en guest star), Deloitte etc… ont monté des offres de « HR Analytics » pour aider à comprendre les départs ou l’absentéisme des salariés, il peut aussi s’agir d’optimiser le recrutement voir même d’éclairer des problématiques plus complexes type GPEC. Bref, une nouvelle activité au sein des Ressources Humaines est en train de naître : l’exploitation des données comme « aide à la décision » pour les RH.

Enfin, toujours dans la catégorie « on en parlait déjà en 2015 » il semble y avoir un consensus sur la coexistence des infrastructures dites « Big Data » et les historiques dites « décisionnelles ». Personnellement j’ai du mal à bien comprendre les raisons de ce point de vue : est-ce pour faire plaisir aux éditeurs historiques ? est-ce le coût pour changer les systèmes qui est trop important ? ou bien est-ce qu’effectivement les infrastructures basées sur la Hadoop (sous-entendu derrière les mots Big Data) ne sont pas encore adaptées pour servir des usages décisionnels ? Franchement même si je ne suis pas assez spécialiste pour être crédible j’ai la sensation que c’est un mélange des 3. Quoi qu’il en soit à court terme tous les retours d’expérience ont mis en avant une cohabitation entre les SI Big Data les SI existants, il n’y a pas eu « d’annule et remplace » brutal.

2) Les nouveautés

Suite à la version 2015 j’avais parlé d’un tâtonnement manifeste sur les organisations et l’emphase à mettre sur la conduite du changement pour faire du Big Data une réalité au delà du buzz word, bla bla bla…

Ce point est beaucoup moins revenu cette année, par contre l’aspect organisationnel a bien été évoqué, souvent sous la forme de Data Lab ; il semblerait qu’il en pousse un peu partout en guise « d’accélérateur ». L’idée est de créer une structure dédiée aux nouvelles utilisations de la donnée pour prouver que ça fonctionne et surtout le faire de manière transverse pour toute l’entreprise. Auchan a par exemple témoigné , avec 1 an de recul, sur son Data Lab multi pays dont les premiers usages étaient des promotions personnalisées et des prévisions de vente.

BluDataAuchan

Un autre sujet que je trouve passionnant a émergé à travers un non débat lourd de sens. Il s’agit du type d’outillage pour les Data Scientist. En effet j’ai constaté une antinomie quasi parfaite entre les témoignages de conférenciers d’un côté et les démonstrations produits de l’autre :

  • lors des retours d’expérience (Auchan ou Accenture par exemple) les Data Scientist semblent travailler leurs données avec du code, en langage R, Python, Spark et parfois SAS – BluData Auchan a même précisé qu’ils étaient passés de logiciels clic bouton type SPSS à du R
  • lors des démonstrations produits les éditeurs ont proposé des solutions les plus complètes possibles dites « plateformes », le code n’y a pas sa place : pas besoin de savoir programmer ou de maîtriser les statistiques pour exploiter les données (RapidMiner, SAS VA, Alteryx, Dataiku). Le summum de cette vision revenant à IBM « Watson Analytics » avec lequel il suffit de taper une question dans une barre prévue à cet effet « Quelle tendance du CA par pays ? » et l’outil s’occupe du reste…

Les 2 visions s’opposent sur l’équilibre à trouver entre maîtrise de ce que l’on fait et rapidité/simplicité du traitement. Bien évidemment vous allez me dire que tout dépend du public d’utilisateurs, à la fois de ses compétences et de ses responsabilités (un analyste n’est pas forcément un statisticien)…. C’est tout à fait exact mais je trouve amusant de voir à quel point certains répètent que « coder c’est dépassé » alors que très concrètement on constate l’inverse. Cela vient probablement du fait que sans maîtrise, à la fois des données et des traitements, alors les analyses peuvent être remises en cause et sont donc un peu bancales. Par ailleurs la boulimie d’analytique demande une accélération des projets en contradiction avec le besoin de connaissances approfondies. Ce débat n’a pas eu lieu début mars pour la simple raison que de manière globale les éditeurs ont intérêt à mettre en avant des solutions « à la souris » beaucoup plus chers (des concurrents comme R sont même gratuits).

A noter aussi qu’un certain type de stands a plus que doublé cette fois ci: les écoles/universités/instituts de formation ! Les certificats, master ou autres modules Big Data ont été exposés pour accompagner le développement des compétences. Ça n’est encore pas énorme mais la présence de l’ENSAE, l’ENSAI, Telecom Paris, Paris Saclay, DSTI, EISTI est un signe. Bien sûr ce marché est très attendu, il n’en est encore qu’à ses débuts et va sans aucun doute s’accélérer dans les années à venir.

3) Une grande absente

Dans la masse de tous ces échanges un pilier du Big Data a brillé par son absence : la donnée en elle-même (et la Data Management en général).

Certes, des interventions l’ont évoquée, voir même une était dédiée à l’Open Data. Mais quand on sait que 75-90% du temps d’un projet Big Data consiste à sourcer et préparer les données j’ai été surpris de réaliser que c’était presque un non sujet pendant ces 2 jours. Ce thème n’étant pas sexy, il a été naturellement un peu discriminé. C’est dommage, les outils et méthodes de Data Management auraient pu intéresser du monde je pense (ça reste un événement pour les professionnels), d’autant plus que c’est un problème qui reste épineux pour beaucoup d’entreprises.

NuageMotsDataManagement

Finalement 2016 s’inscrit dans la droite lignée de l’année dernière avec simplement quelques nouveautés : les Data Lab, le débat (tacite) sur les outils analytiques et la structuration du monde de la formation. Pas de rupture majeure ni de désillusion. J’ajouterais aussi que le salon accueillant un public de plus en plus large en vient à être assez généraliste, les discussions trop pointues sont évitées. Pas facile alors dans ces conditions d’identifier les signaux faibles pour les années à venir, il faudra aller les chercher ailleurs.

Quelques liens utiles: HR Analytics l’offre originale et très intéressante de ClustreeLa « Insights Platform » d’AccentureLe salon Data Job (fin 2015 avec la présentation de la plupart des cursus Data Science), blog Uman Partners sur les problématiques RH

Publicités