Tu seras Data Scientist ma fille!

Le 20 novembre dernier s’est tenu Data Job, « Plus grand salon de rencontre des métiers de la Data ». Ce salon fut l’occasion d’observer les profils des étudiants et des recruteurs mais aussi de vérifier que la pénurie annoncée de Data Scientist se concrétisait.

Sans surprise les recruteurs principaux étaient des consommateurs historiques de données, je parle notamment les 4 sponsors: Axa (qui recrute pour son Data Lab), EY (aussi pour son Data Lab), Deloitte (audit et conseil) et enfin Quantmetry (conseil en statistiques et Big Data). Les profils des étudiants étaient pour partie issus de l’informatique  mais surtout très majoritairement du monde de la statistique/mathématique (ENSIMAG, UMPC, ENSAE, Ecole des Ponts, ENSAI, ENSTA, ISUP etc…).

Par ailleurs les différentes conférences qui se sont tenues en parallèle du salon ont montré que le secteur recrutait, et qu’il y avait de grandes difficultés à pourvoir tous les postes (Safran, Voyages SNCF, Crédit Mutuel Arkea).

Alors, comme le présente la Harvard Business Review, les Data Scientist ont ils le job le plus sexy du 21ème siècle (data scientist, the sexiest job of the 21st century)?

Personnellement « sexy » je n’en sais rien mais « d’avenir » c’est certain, en effet tous les secteurs et tous les domaines de compétences axent de plus en plus leur activité « en connaissance des données », je veux dire par là que tous ont besoin d’experts capables de manipuler et interpréter les données. Ceci est vrai en marketing pour connaître les clients et le marché, vrai en ressources humaines (recrutement et gestion de carrière), vrai sur les métiers coeurs de la banque (finance), de l’assurance (actuariat) etc…

Donc oui à titre très personnel je pense que si ma fille souhaitait devenir Data Scientist ça ne serait pas forcément un mauvais plan! La question restant « mais qu’est-ce qu’un Data Scientist et comment le devient-on? ».

Nota Bene: au départ je souhaitais appeler cet article « Tu seras Data Scientist mon fils », mais d’une part je ne voulais pas plagier l’article du même nom (article myrhline), d’autre part les femmes représentent moins de 10% des membres des comité de direction (cf article lexpress) – absurdité révoltante dans une société soit disant paritaire…

Le Data Scientist, une utopie?

datascience

La nature du Big Data est pluridisciplinaire: stocker et exploiter les données (informatique) pour les analyser ou modéliser (statistique) afin de les restituer et éclairer les décisions (business analyst). C’est ainsi que le mythe du Data Scientist qui sait tout faire est né.

Soyons clair, celle (ou celui) qui est capable faire tout cela avec un niveau expert sera effectivement un profil rare, recherché (et donc cher) correspondant à la définition complète du Data Scientist. Ces profils auront vocation à se multiplier, mais peut-on raisonnablement croire que tous auront la compétence et surtout l’envie d’être autant multi expertise? Il y aura (comme il en existe déjà) des experts complets de haut niveau qui pourront assumer une telle palette de compétences, par contre autour d’eux c’est probablement toute une structure complète qui sera mise en place avec des profils experts mais moins complets. Je pense par exemple à Axa qui affichait (lors de DataJob) des recrutements complémentaires pour son Data Lab: Data Scientist, Architectes SI, Business Projects Managers.

Les Data Scientist complets seront donc la clé de voute des activités Data des entreprises, alors peut-être même encore plus recherchés que ce que l’on pense.

Quels profils et formations pour devenir Data Scientist?

FormationDataScience

Une question fréquente, et structurante pour la formation, est de savoir de quel univers vont principalement venir les Data Scientist: plutôt informatique, statistique ou généraliste?

Cette question ne peut donner lieu à une réponse catégorique, il semble toutefois se dessiner une filière privilégiée bien que non exclusive: les statistiques et notamment les statistiques appliquées (Datamining, Business Intelligence etc…). Pour ce type de profil devenir Data Scientist signifie ajouter la compétence informatique d’extraction et manipulation de la donnée ainsi que l’algorithmie moins traditionnelle (machine learning). Les recruteurs et formateurs (notamment des responsables de Master Spécialisés Big Data) confirment ce point en expliquant qu’aujourd’hui la plupart des formations en informatique n’abordent que trop peu les mathématiques théoriques, la marche purement académique à franchir est donc souvent trop grande.

Il est possible de répartir les formations selon 3 familles:

  • celles qui créent une filière Data Science, écoles d’ingénieurs ou universités en systèmes d’information ou statistiques; cela peut passer par un ajustement du cursus (ENSAE, Telecom Nancy, UMPC) ou par des formations de spécialisation Bac+6 (ENSIMAG/EMSI, ENSAI) – sauf erreur de ma part toutes ces formations ont été annoncées, au plus tôt, fin 2013 pour démarrage en 2014, ces nouveaux profils ne sont pas encore sur le marché de l’emploi (ou alors en stage)
  • celles, étalées sur 12 à 24 mois, qui s’adressent à des publics soit en fin d’étude soit déjà en poste; par exemple sous forme de Master Spécialisé (Telecom Paris – précurseur du sujet dont c’est déjà la 2ème rentrée – EM Grenoble ou encore ENSAE) ou alors sous forme de certificat (Actuariat Big Data de l’Institut des Actuaires ou Certificat analyse données massives du CNAM – les 2 démarrent tout juste)
  • et enfin celles de quelques jours ou quelques semaines pour impulser la culture Big Data au sein des entreprises: l’institut CEPE (10 jours assez techniques), l’institut Cap Gemini (sur 2 jours) ou data-business.fr qui propose une formation de 2 semaines sur le sujet

Cet univers étant en plein expansion la liste n’est sûrement pas exhaustive, vos commentaires sont les bienvenus pour l’enrichir.

Voici les liens des formations citées: Filière Data Science ENSAE, Filière Data Science Telecom Nancy, Filière Data Science UMPC, Bac+6 ENSIMAG, Bac+6 ENSAI, MS Telecom Paris, MS EM Grenoble, MS ENSAEFormation Actuariat Data Science, Certificat Big Data CNAM, Formation continue CEPE, Formation continue Cap Gemini, Formation continue Data-Business.

Un métier de passionnés avant tout

kaggle

Quel que soit le profil d’origine où la formation suivie les bons Data Scientist auront tous un point commun: la passion de la donnée, curieux de tout savoir sur son cycle de vie: d’où elle vient? comment elle est générée? avec quelle qualité? comment la traiter? comment l’utiliser? comment en interpréter l’analyse? comment la restituer de manière efficace?

Répondre à ces questions demandent une forte curiosité et un haut niveau d’ouverture sur les outils, méthodes et règles métiers; nous sommes donc loin du cliché du statisticien/informaticien scotché derrière son PC.

J’ajouterais aussi qu’aujourd’hui pour se distinguer les plus motivés participent aux concours sur Kaggle.com ou DataScience.net; concours où des entreprises mettent des données en ligne (anonymes bien sûr) et lancent des challenges pour trouver les meilleurs modèles prédisant tels ou tels évènements, les vainqueurs peuvent toucher quelques milliers d’euros. Participer à de tels concours n’est pas anodin, cela demande des jours d’investissement et l’envie de tester de nombreuses méthodes innovantes, illustration parfaite de la curiosité et de l’implication nécessaire pour être un Data Scientist complet.

 

En conclusion je dirais que ce métier, comme souvent évoqué dans la littérature, a un très bel avenir devant lui. Par contre les équipes de Data Science seront plutôt composées de multiples profils SI, Stat et Chef de Projets avec, en leur sein, des piliers rares aux compétences transverses: les Data Scientists. Concernant les formations elles vont continuer à se multiplier dans les années à venir; le véritable enjeu n’étant finalement pas de former de nouveaux diplômés (le démarrage est réel bien que tardif) mais de transformer les entreprises pour qu’elles puissent les accueillir avec des structures et des profils plus séniors prêts à les encadrer.

Quelques liens intéressants: article formations e-orientation, article formations campus.lemonde, article formations data-business.frblog Uman Partners sur les problématiques RH

Publicités

Un Chief Data Officer, mais pour quoi faire ?

La nomination, le 16 septembre dernier, d’Henri Verdier comme « Administrateur général des données » de l’Etat, a mis le poste de Chief Data Officer (en version anglaise) sous le feu des projecteurs. Henri Verdier a pour responsabilité la bonne connaissance, diffusion et exploitation des données produites par l’Etat. Ses « pleins pouvoirs » sur le sujet lui permettront d’accéder à toutes les informations afin de proposer des évolutions (législatives s’il faut) pour en améliorer la qualité, la cohérence et l’accessibilité : quelles bases sont accessibles à l’extérieur et par qui ?

Petit aparté pour ceux qui peuvent penser (et c’est bien naturel) qu’on ne parle là que de quelques fichiers INSEE : en fait pas du tout, la quantité et variété des données publiques accessibles (open data) sont gigantesques. A titre d’exemples on peut citer le référencement de tous les professionnels de santé (dont les tarifs) accessible sur Ameli.fr, ou encore les informations des cartes grises issues de la préfecture centralisées dans la base AAA (caractéristiques d’un véhicule via l’immatriculation), ou enfin les informations géographiques administratives (cartes et cadastres). Bien gérer les données publiques est donc un point majeur pour l’Etat, point structurant pour les nombreuses entreprises qui les utilisent – dans les exemples cités je pense aux assurances santé (base médecins), aux réparateurs automobiles (bases véhicules) ou agents immobiliers (cadastres).

Ainsi l’Etat a jugé nécessaire la création d’un tel poste, grande première en Europe. Les spécialistes ont unanimement salué cette décision qui, a minima, illustre une prise de conscience de l’importance du sujet.

Cette tendance à vouloir mieux maîtriser et surtout mieux utiliser les données est arrivée du secteur privé avec l’avènement du Big Data. L’augmentation exponentielle du volume d’informations, la grande variété maintenant disponible et les nouveaux usages qu’on peut en faire (cf les précédents articles) poussent chacun à « optimiser la valeur » tirée des données. Les sources pouvant être internes (fichiers clients par exemple) ou externes (issues du web par exemple).

Un Chief Data Officer pour « gouverner » la donnée

Les entreprises ayant récemment enclenché des démarches autour d’une utilisation plus efficace de leurs données (Big Data ou non) constatent toutes que le sujet ne concerne plus une seule direction (Systèmes d’Information, Marketing, Business Intelligence etc…) mais bien à toute l’entreprise.

Par ailleurs ces nouveaux sujets confirment aussi que la maîtrise de la donnée est essentielle : comment est-elle produite ? Quelles règles de gestion ? Quelle qualité ? Quelle fraîcheur ? Qui peut y accéder et comment ? Quelle bonne utilisation en faire ? Autant de questions qui ne méritent pas juste d’être posées mais bien résolues de manière pérenne. Je veux dire par là, par exemple concernant la fiabilité, qu’il ne s’agit pas de simplement vérifier 1 fois que tout est bon mais bien de mettre en place un système continu du pilotage de la qualité.

La donnée devient donc un actif (qui a une valeur) transverse avec la nécessité d’en assurer la bonne maîtrise et exploitation dans le temps. Assez naturellement se pose alors la question « mais qui est responsable de la bonne maîtrise et exploitation de cet actif transverse ? ». Dans la plupart des structures classiques la réponse serait, aujourd’hui, « un peu tout le monde et surtout personne ». Bien sûr certains produisent la donnée (notamment les équipes SI), d’autres l’utilisent (par exemple les analystes ou les statisticiens) mais personne n’est responsable de bout en bout pour toute l’entreprise.

De là est née la fonction de Chief Data Officer, on dit qu’il « gouverne » ou « manage » la donnée. Son rôle est d’organiser la mise à disposition et la bonne exploitation de données riches et fiables (internes et externes) ; ceci dans une optique de création de valeur pour l’entreprise.

CDO

Un profil très complet difficile à trouver

Les exemples de nomination de Chief Data Officer se multiplient en Europe (Orange, AXA, BNP etc…) alors que la pratique est déjà bien instaurée aux US, Gartner prévoit même que 25% des grandes organisations auront un CDO dès 2015 (article Gartner).

Pour autant ce type de postes reste encore assez exceptionnel en France (85% des CDO sont aux US ou au UK), le profil du CDO n’est donc pas encore formaté et dépend bien sûr des attentes des organisations.

Voici les tendances qui se dégagent du profil type :

  • Une expérience solide et une légitimité qui lui permettent de siéger au comité de direction : la donnée est stratégique et transverse, cela étant difficilement conciliable avec un rattachement à une direction existante
  • Une triple compétence : business (vision stratégique), data (angle Systèmes d’Information) et analytique

Les « nouveaux » CDO viennent donc généralement soit de la DSI (Systèmes d’Information) soit du monde de l’analyse (marketing quantitatif, statisticiens, analystes financiers etc…). A noter qu’en 2013 dans le monde 26% des CDO étaient des femmes, soit 2 fois plus que parmi les CIO (i.e. Directeur Systèmes d’Information) ; c’est donc dramatiquement bas mais quand même un peu moins pire…

Ceci est bien sûr une tentative d’ébauche de portrait, le sujet étant nouveau le profil type évoluera très probablement dans les années à venir.

multitasking

Le Chief Data Officer n’est pas un magicien, en tout cas pas tout seul…

Pour remplir ses missions un Chief Data Officer doit aller au-delà de la simple vision stratégique et opérer de manière très concrète sur l’enrichissement, la qualité, l’accessibilité et l’exploitation de la donnée.

Ce n’est bien sûr pas lui-même qui réalisera des extractions, du nettoyage, la rédaction d’un catalogue des bases ou encore des modèles statistiques innovants. Il s’appuiera pour cela sur des ressources internes qui, toujours pour des raisons de transversalité, peuvent difficilement appartenir à une direction qui n’est pas dédiée au sujet data. Ces ressources sont en fait constituées de « Data Scientist », terme aussi très à la mode suscitant fantasmes et nouvelles vocations.

Les Data Scientist sont le bras armé du Chief Data Officer ; en synthèse il s’agit idéalement d’experts en statistique et informatique (base de données) avec une excellente capacité à comprendre et traduire les besoins des utilisateurs des données (marketing, analystes business etc…).

En théorie les Data Scientist passent :

  • Un quart de leur temps avec les fonctions « métiers »: comprendre leurs besoins et leur apporter des réponses sous forme de données et analyses
  • La moitié de leur temps à extraire et préparer des données
  • Un quart de leur temps à analyser les data et développer des modèles statistiques

En pratique, à court terme, cela reste à prouver car oui ces profils existent s’avèrent d’une grande valeur (ex ingénieurs informatique ou statisticiens reconvertis via des Master ou des passages en Cabinets de Conseil) MAIS nous n’en sommes qu’aux balbutiements, il faudra vraiment confronter cela à la réalité.

 

En conclusion il apparait que la prise en compte croissante du Big Data dans les organisations les pousse à se poser des questions organisationnelles sur la « gouvernance de la donnée ». La mise en place d’un Chief Data Officer armé d’une équipe de Data Scientist semble la réponse théorique couramment envisagée même si concrètement très peu d’entreprises françaises ont encore sauté le pas. Le manque de recul me fait rester prudent sur l’efficacité garantie de ce type de structure ; j’y crois toutefois assez fort car les exemples venant, encore une fois, des Etats Unis sont assez concluants (les postes de CDO et Data Scientist connaissent l’explosion attendue).

Quoi qu’il en soit à très court terme les entreprises françaises vont être confrontées à un double défi : mettre en place une gouvernance de la donnée (CDO ou non) tout en faisant face à une pénurie de compétences sur ces métiers (les formations en Data Science commencent à peine à émerger : les quelques « anciennes » type Master Telecom Paris datent de 2012-2013).

Bref, à suivre dans les mois et années qui viennent…

 

Quelques liens intéressants: le CDO France, l’article des Echos sur le CDO France, un site dédié au nouveau métier CDO, la vision IBM du CDO, le dossier très complet de Cap Gemini sur le sujet, article de Uman Partners sur CDO