Quels voeux pour le Big Data en 2016? (non non il n’est pas trop tard)

Janvier est traditionnellement le mois des bonnes résolutions et des vœux : santé, bonheur, joie, succès, rigolade, richesse etc… Il n’est donc pas encore trop tard pour se pencher sur ce le cas du Big Data en 2016 : que peut-on souhaiter à un pré-ado en pleine croissance?

Ces 2 dernières années le sujet est passé, dans les entreprises, d’un buzz word (concept fumeux) à une vague de tests en tous genres pour toucher du doigt la valeur business du phénomène. Alors qu’attendre de plus pour les 12 mois à venir?

Une accélération des passages « en production »?

FactoryData

Comme tout nouveau concept objet de belles expérimentations, le Big Data et ses technologies font face à LA difficulté classique : le passage au monde réel i.e. le quotidien industriel des entreprises.

En effet, pour vérifier l’intérêt de la distribution du stockage et du traitement, il n’est aujourd’hui pas si complexe de monter un lac de données sur une infrastructure Big Data; sous réserve d’avoir le temps, les moyens et les compétences adéquates (internes ou externes). Cela fait beaucoup de « si » donc je ne veux surtout rien enlever à ceux qui ont déjà pu mener de tels projets. Une fois cette construction réalisée reste à y charger des données puis les traiter; là encore rien de simple mais avec un peu de patience on peut finir par y arriver.

Sincèrement la plus grosse difficulté, à la fois technique, politique et ROIste (prouver la rentabilité) arrive ensuite, lorsqu’il faut intégrer ces solutions dans les environnements existants. Ca n’est d’ailleurs pas un hasard si la très grande majorité des entreprises exploitant quotidiennement le Big Data sont toutes récentes et « nées » à l’ère du digital (ça va du classique Critéo pour le retargeting à l’excellente nouveauté Clustree dans les RH). Certains plus « anciens » y sont arrivés, par exemple le Crédit Mutuel Arkea, mais ils ont démarré tôt leurs démarches, en 2009 dans ce cas précis.

Dans les entreprises avec un système d’information historique déjà développé on constate alors un potentiel Big Data naturel sur les besoins nouveaux : par exemple la collecte et l’analyse des données digitales des clients (les fameuses DMP), ou bien des données « machines » pour de la maintenance prédictive. Bref, pour éviter d’investir d’importantes sommes dans des opérations déjà (partiellement) traitées on se concentre sur les innovations. C’est une première étape de développement qui en appellera probablement d’autres si les fameuses « mises en production » s’avèrent des succès.

Un peu plus d’importance accordée à la matière première: la donnée

DataMatierePremiere

Il arrive régulièrement de voir des POC (Proof Of Concept) sur les technologies Big Data ou sur les méthodes prédictives de pointe. Mais au final, pour obtenir de l’information plus pertinente, rien de tel que de partir de données plus riches: meilleure qualité, meilleure préparation, sources plus nombreuses (même internes) etc… Ce travail autour de la donnée n’est clairement pas le plus sexy, il reste cependant fondamental.

Si ces questions sur les Data sont parfois mal traitées c’est aussi, et surtout, parce qu’il est compliqué de bien « manager » ses données, d’intégrer de nouvelles sources et si possible d’automatiser le tout. Il s’agit des tâches chronophages (~2/3 du temps d’un projet) et complexes techniquement, elles demandent une expertise rare.

Je parle là bien sûr de « Gouvernance de la donnée« : comment organiser la donnée pour enrichir l’information disponible? Même si le thème est encore flou il est indispensable de se pencher sur les questions qu’il suscite sans quoi le moteur tournera à vide.

Une touche d’éthique pour préparer l’avenir

RepNum

Le respect de la loi Informatique et Libertés est un incontournable. Toute personne travaillant dans ce domaine a intérêt à connaître les bases de cette loi sur les données à caractère personnel: comment les collecter? comment les utiliser? quelles obligations en termes de gestion? etc… Ce cadre prend d’autant plus d’importance que le rôle de la CNIL a été renforcé dans le projet de loi République Numérique.

Mais, doit-on, en tant que marque connue ou simple citoyen, réellement se limiter à la législation alors qu’il s’agit d’une problématique nouvelle en pleine évolution?

J’aurais tendance à dire « non, 3 fois non », les entreprises ont un devoir de transparence et de respect si elles veulent s’inscrire dans le long terme; on peut même considérer qu’il appartient à chacun de faire avancer les débats, que ce soit en participant aux consultations lors des projets de loi ou en soutenant l’incroyable démarche « Open Data » enclenchée par Henri Verdier, démarche concrétisée à travers le site Data.gouv.fr.

Des tas de questions restent à traiter sur ces sujets-là : quelle gestion pour les données issues des objets connectés (par exemple les voitures connectées)? quelle législation sur la maîtrise des algorithmes? quelles évolutions attendre sur les données de santé? quelles données (non personnelles) les entreprises doivent-elles rendre publiques pour le bien de tous?

Autant de points sur lesquels je n’ai bien sûr pas la prétention d’avoir un avis si ce n’est de dire qu’il faut y réfléchir aujourd’hui avant d’être rattrapés par des scandales.

Et si on souhaitait tout simplement au Big Data de disparaître des discussions ?

Arrêter d’en parler ne signifierait pas un manque d’intérêt mais tout simplement une normalisation du phénomène. Cela éviterait peut être de mettre les mots Big Data à toutes les sauces, car finalement c’est juste une autre façon d’exploiter, au sens large, les données.

Bon, soyons honnête, ce vœux me parait un peu prématuré en 2016, d’une part car nous sommes loin d’avoir épuisé le potentiel « mode » de ces termes, d’autre part car les systèmes de stockage et traitement plus traditionnels (par exemple Oracle) ont encore de beaux jours devant eux – il faut donc bien un nom pour les nouvelles solutions. Il est ainsi peu probable que les éditeurs, consultants, ou autres experts bannissent, à court terme, ces 2 mots de leur vocabulaire.

Ceci dit vivement que ça arrive car on peut encore entendre/lire tout et n’importe quoi sur Hadoop, le Machine Learning, la Data Management etc… Peut-être que cette année le relais sera pris, au moins dans le secteur financier, par la blockchain qui concentre beaucoup d’idées reçues assez rigolotes, je vous laisse découvrir tout seul ce qui se cache derrière cette notion (je préfère passer mon tour et laisser la place aux spécialistes).

Blockchain-Logo-Blue6

 

Alors bonne année au Big Data à qui l’on peut souhaiter un peu plus de maturité business, le tout dans un cadre éthique à construire. Rendez-vous l’année prochaine pour voir si les choses ont évolué.

 

Un Chief Data Officer, mais pour quoi faire ?

La nomination, le 16 septembre dernier, d’Henri Verdier comme « Administrateur général des données » de l’Etat, a mis le poste de Chief Data Officer (en version anglaise) sous le feu des projecteurs. Henri Verdier a pour responsabilité la bonne connaissance, diffusion et exploitation des données produites par l’Etat. Ses « pleins pouvoirs » sur le sujet lui permettront d’accéder à toutes les informations afin de proposer des évolutions (législatives s’il faut) pour en améliorer la qualité, la cohérence et l’accessibilité : quelles bases sont accessibles à l’extérieur et par qui ?

Petit aparté pour ceux qui peuvent penser (et c’est bien naturel) qu’on ne parle là que de quelques fichiers INSEE : en fait pas du tout, la quantité et variété des données publiques accessibles (open data) sont gigantesques. A titre d’exemples on peut citer le référencement de tous les professionnels de santé (dont les tarifs) accessible sur Ameli.fr, ou encore les informations des cartes grises issues de la préfecture centralisées dans la base AAA (caractéristiques d’un véhicule via l’immatriculation), ou enfin les informations géographiques administratives (cartes et cadastres). Bien gérer les données publiques est donc un point majeur pour l’Etat, point structurant pour les nombreuses entreprises qui les utilisent – dans les exemples cités je pense aux assurances santé (base médecins), aux réparateurs automobiles (bases véhicules) ou agents immobiliers (cadastres).

Ainsi l’Etat a jugé nécessaire la création d’un tel poste, grande première en Europe. Les spécialistes ont unanimement salué cette décision qui, a minima, illustre une prise de conscience de l’importance du sujet.

Cette tendance à vouloir mieux maîtriser et surtout mieux utiliser les données est arrivée du secteur privé avec l’avènement du Big Data. L’augmentation exponentielle du volume d’informations, la grande variété maintenant disponible et les nouveaux usages qu’on peut en faire (cf les précédents articles) poussent chacun à « optimiser la valeur » tirée des données. Les sources pouvant être internes (fichiers clients par exemple) ou externes (issues du web par exemple).

Un Chief Data Officer pour « gouverner » la donnée

Les entreprises ayant récemment enclenché des démarches autour d’une utilisation plus efficace de leurs données (Big Data ou non) constatent toutes que le sujet ne concerne plus une seule direction (Systèmes d’Information, Marketing, Business Intelligence etc…) mais bien à toute l’entreprise.

Par ailleurs ces nouveaux sujets confirment aussi que la maîtrise de la donnée est essentielle : comment est-elle produite ? Quelles règles de gestion ? Quelle qualité ? Quelle fraîcheur ? Qui peut y accéder et comment ? Quelle bonne utilisation en faire ? Autant de questions qui ne méritent pas juste d’être posées mais bien résolues de manière pérenne. Je veux dire par là, par exemple concernant la fiabilité, qu’il ne s’agit pas de simplement vérifier 1 fois que tout est bon mais bien de mettre en place un système continu du pilotage de la qualité.

La donnée devient donc un actif (qui a une valeur) transverse avec la nécessité d’en assurer la bonne maîtrise et exploitation dans le temps. Assez naturellement se pose alors la question « mais qui est responsable de la bonne maîtrise et exploitation de cet actif transverse ? ». Dans la plupart des structures classiques la réponse serait, aujourd’hui, « un peu tout le monde et surtout personne ». Bien sûr certains produisent la donnée (notamment les équipes SI), d’autres l’utilisent (par exemple les analystes ou les statisticiens) mais personne n’est responsable de bout en bout pour toute l’entreprise.

De là est née la fonction de Chief Data Officer, on dit qu’il « gouverne » ou « manage » la donnée. Son rôle est d’organiser la mise à disposition et la bonne exploitation de données riches et fiables (internes et externes) ; ceci dans une optique de création de valeur pour l’entreprise.

CDO

Un profil très complet difficile à trouver

Les exemples de nomination de Chief Data Officer se multiplient en Europe (Orange, AXA, BNP etc…) alors que la pratique est déjà bien instaurée aux US, Gartner prévoit même que 25% des grandes organisations auront un CDO dès 2015 (article Gartner).

Pour autant ce type de postes reste encore assez exceptionnel en France (85% des CDO sont aux US ou au UK), le profil du CDO n’est donc pas encore formaté et dépend bien sûr des attentes des organisations.

Voici les tendances qui se dégagent du profil type :

  • Une expérience solide et une légitimité qui lui permettent de siéger au comité de direction : la donnée est stratégique et transverse, cela étant difficilement conciliable avec un rattachement à une direction existante
  • Une triple compétence : business (vision stratégique), data (angle Systèmes d’Information) et analytique

Les « nouveaux » CDO viennent donc généralement soit de la DSI (Systèmes d’Information) soit du monde de l’analyse (marketing quantitatif, statisticiens, analystes financiers etc…). A noter qu’en 2013 dans le monde 26% des CDO étaient des femmes, soit 2 fois plus que parmi les CIO (i.e. Directeur Systèmes d’Information) ; c’est donc dramatiquement bas mais quand même un peu moins pire…

Ceci est bien sûr une tentative d’ébauche de portrait, le sujet étant nouveau le profil type évoluera très probablement dans les années à venir.

multitasking

Le Chief Data Officer n’est pas un magicien, en tout cas pas tout seul…

Pour remplir ses missions un Chief Data Officer doit aller au-delà de la simple vision stratégique et opérer de manière très concrète sur l’enrichissement, la qualité, l’accessibilité et l’exploitation de la donnée.

Ce n’est bien sûr pas lui-même qui réalisera des extractions, du nettoyage, la rédaction d’un catalogue des bases ou encore des modèles statistiques innovants. Il s’appuiera pour cela sur des ressources internes qui, toujours pour des raisons de transversalité, peuvent difficilement appartenir à une direction qui n’est pas dédiée au sujet data. Ces ressources sont en fait constituées de « Data Scientist », terme aussi très à la mode suscitant fantasmes et nouvelles vocations.

Les Data Scientist sont le bras armé du Chief Data Officer ; en synthèse il s’agit idéalement d’experts en statistique et informatique (base de données) avec une excellente capacité à comprendre et traduire les besoins des utilisateurs des données (marketing, analystes business etc…).

En théorie les Data Scientist passent :

  • Un quart de leur temps avec les fonctions « métiers »: comprendre leurs besoins et leur apporter des réponses sous forme de données et analyses
  • La moitié de leur temps à extraire et préparer des données
  • Un quart de leur temps à analyser les data et développer des modèles statistiques

En pratique, à court terme, cela reste à prouver car oui ces profils existent s’avèrent d’une grande valeur (ex ingénieurs informatique ou statisticiens reconvertis via des Master ou des passages en Cabinets de Conseil) MAIS nous n’en sommes qu’aux balbutiements, il faudra vraiment confronter cela à la réalité.

 

En conclusion il apparait que la prise en compte croissante du Big Data dans les organisations les pousse à se poser des questions organisationnelles sur la « gouvernance de la donnée ». La mise en place d’un Chief Data Officer armé d’une équipe de Data Scientist semble la réponse théorique couramment envisagée même si concrètement très peu d’entreprises françaises ont encore sauté le pas. Le manque de recul me fait rester prudent sur l’efficacité garantie de ce type de structure ; j’y crois toutefois assez fort car les exemples venant, encore une fois, des Etats Unis sont assez concluants (les postes de CDO et Data Scientist connaissent l’explosion attendue).

Quoi qu’il en soit à très court terme les entreprises françaises vont être confrontées à un double défi : mettre en place une gouvernance de la donnée (CDO ou non) tout en faisant face à une pénurie de compétences sur ces métiers (les formations en Data Science commencent à peine à émerger : les quelques « anciennes » type Master Telecom Paris datent de 2012-2013).

Bref, à suivre dans les mois et années qui viennent…

 

Quelques liens intéressants: le CDO France, l’article des Echos sur le CDO France, un site dédié au nouveau métier CDO, la vision IBM du CDO, le dossier très complet de Cap Gemini sur le sujet, article de Uman Partners sur CDO