Pourquoi la frénésie Big Data s’apaiserait-elle?

En plaçant le Big Data entre le sommet des « attentes démesurées » et le creux de la « phase des désillusions » dans son Hype Cycle 2014, le Gartner avait annoncé l’été dernier un retour sur terre quant aux espoirs placés dans ce phénomène. En léger décalage par rapport à l’Amérique du Nord, le marché français n’en est pas encore à un tel apaisement, j’ai donc envie de me pencher sur les potentielles déceptions qui pourraient l’expliquer.

Petit aparté pour ceux connaissant mal ou pas le mythique « Hype Cycle » du Gartner (cabinet de conseil et recherche en nouvelles technologies). Si je devais traduire « Hype Cycle » je tenterais « Le cycle du battage médiatique ». Le Gartner l’a modélisé à travers plusieurs phases: une rapide croissance générant des attentes trop élevées suivi d’une chute jusqu’à une période de désillusions pour ensuite revenir progressivement à un niveau normal de visibilité:

hypecyclegartnercritiqueHC_ET_2014

En août 2014 le Big Data avait entamé sa redescente, la version 2015 devrait confirmer cela. Lien vers Hype Cycle générique, lien vers Hype Cycle 2014.

D’après ma vision du marché français, bien que limitée, j’imagine 3 types de limites possibles au développement médiatique du Big Data : des technologies décevantes, un manque de compétences et un impact éthique loin d’être négligeable.

Les technologies « Big Data » sont-elles à la hauteur des attentes?

cloudera_hortonworks_mapr

Pour être honnête je trouve moi-même une telle question un peu naïve car bien évidemment tout dépend des attentes. Pour ceux connaissant bien la technologie Hadoop et les solutions existantes (Cloudera, MapR, HortonWorks) il ne peut pas y avoir de trop mauvaises surprises, je parle donc des attentes qu’on retrouve dans la littérature moins spécialisée.

Globalement les technologies Big Data n’ont pas usurpé leur réputation car elles permettent, entre autres, de :

  • stocker de la donnée à un coût au Go défiant la concurrence historique
  • stocker des données de tous types (cf le V de variété pour les fameuses données non structurées – images vidéos sons textes médias sociaux objets connectés)
  • répartir les traitements sur des serveurs en parallèle avec une puissance démultipliée (calculs distribués)
  • réaliser des analyses en temps réel (grâce à la puissance de calcul)
  • s’adapter aux besoins : s’il faut doubler la capacité c’est possible, il suffit de rajouter des nœuds et/ou des serveurs et le tour est joué; pas besoin de tout casser et tout reconstruire!

Par contre, la mariée est forcément un peu trop belle :

  • le coût incrémental au Go est effectivement faible mais le coût des licences est loin d’être négligeable (pour une entreprise de taille conséquente cela peut aller de plusieurs centaines de k€ à plusieurs M€)
  • il est tout à fait possible de stocker des données non structurées… mais les exploiter reste complexe car il faut les préparer et les structurer avant de les analyser : le Big Data n’est pas « magique »
  • il n’est pas facile de tirer tous les bénéfices d’une puissance distribuée : cela nécessite soit des solutions analytiques qui le font automatiquement soit de le gérer à la main; attention car répartir un calcul algorithmique sur plusieurs nœuds demande un degré certain d’expertise
  • la technologie Hadoop, sans vouloir trop rentrer dans les détails, n’est pas encore parfaitement adaptée à des systèmes opérationnels/transactionnels (batchs vs événements); il faudra encore quelques progrès pour qu’elle puisse facilement remplacer les systèmes CRM existants. Ceci est à mettre aux regards des besoins analytiques ou BI (reporting) qui peuvent déjà être très bien pris en compte

Ces quelques limites technico techniques peuvent avoir un côté déceptif pour ceux qui voyaient un Big Bang immédiat sur tout l’univers de la donnée. Toutefois j’ai peu de doutes sur le fait que les barrières vont être levées progressivement : d’une part la version 2 d’Hadoop a déjà permis de gros progrès (cf article assez clair sur le sujet) prouvant que la situation évolue, d’autre part par nature toutes ces solutions sont souples et adaptables. Finalement, technologiquement parlant, si le buzz du Big Data va s’atténuer cela sera probablement plus lié au fait que ces infrastructures seront devenues des standards qu’à cause d’éventuels blocages.

Le manque de compétences peut-il étouffer la flamme Big Data?

DSDSTI

Fin 2012 la très sérieuse Harvard Business Review présentait le métier de Data Scientist comme le plus sexy du monde (cf article). Dès lors la Data Science est devenue LE domaine d’avenir! On y retrouve des compétences statistiques, informatiques et business avec une pénurie annoncée de plusieurs centaines de milliers d’emplois dans les années à venir. Personnellement je crois plus à un modèle avec des équipes pluridisciplinaires que des moutons à 5 pattes (cf article « Tu seras data scientist ma fille« ), cela n’empêche que les profils Data Science sont effectivement très difficiles à trouver, j’en ai fait l’expérience.

En France de nombreuses formations se mettent en place pour pallier à ce manque : soit en adaptant des cursus existants (ENSAE, ENS Cachan, UMPC, Telecom Nancy etc…), soit en créant des Masters Spécialisés (Telecom Paris, ENSAI etc…) soit en se montant de toutes pièces (Data Science Tech Institute). Par ailleurs les cabinets de conseil ou instituts de formation ajoutent à leurs catalogues des formations courtes pour s’initier ou se spécialiser, de quelques jours à quelques semaines. La pénurie de compétences devrait donc durer quelques années mais l’offre va finir par s’adapter à la demande.

Ceci dit ce manque de formations disponibles, bien que gênant pour mener des projets Big Data, génère à lui tout seul un buzz médiatique extraordinaire. A mes yeux le plus déceptif pour une entreprise se lançant dans le Big Data n’est pas la difficulté à recruter des Data Scientist (tout le monde sait que ces profils sont encore très rares) mais tout simplement la difficulté à trouver des ressources, qu’elles soient internes ou externes, qui maîtrisent suffisamment les technologies pour mettre en place un environnement technique Big Data qui servira d’outil aux Data Scientist.

Cette pénurie de compétences SI est, elle, de nature à ternir l’image du Big Data! On ne parle pas de job sexy, on ne parle pas de nouvelle matière (ça reste des SI) MAIS pour autant un projet Big Data peut patauger tout simplement parce que personne en interne ne sait développer et installer un Data Lake. Parfois mêmes les consultants accompagnant le projet découvrent ces technologies au fur et à mesure de l’installation. Bref, là aussi le temps permettra à tous d’acquérir l’expérience suffisante (notamment les plus motivés devenant alors incontournables) toutefois la phase de transition risque d’en frustrer quelques-uns ne voyant pas leurs initiatives avancer assez vite.

L’éthique sera-t-elle un frein ou bien un guide pour le Big Data?

CNILSnowden

Une fois les technologies en place avec des personnes compétentes pour les utiliser encore faut-il vouloir et pouvoir les exploiter librement. Avec la multiplication des cas d’usages Big Data le sujet de l’éthique est en passe d’arriver sur le devant de la scène.

Cette question englobe en réalité souvent 3 niveaux de réflexion que j’essaie de décrire ainsi: le légal (les aspects CNIL), l’éthique qui fait appel au sens moral des entreprises et le philosophique qui pose des questions profondes de société à long terme.

La loi Informatique et Libertés est-elle incompatible avec le Big Data?

Au niveau légal la réglementation française Informatique et Libertés est considérée comme stricte (vs les pays anglo-saxons) : les données à caractère personnel ne peuvent être collectées et traitées que de manière « loyale et licite » nécessitant d’obtenir un accord préalable des individus et de ne pas les utiliser pour autre chose. Par ailleurs certaines données dites sensibles sont tout simplement interdites de collecte ou traitement: les données de santé (il existe quelques exceptions), origines raciales, opinions politiques, religieuses etc… Enfin, les données doivent être exactes et complètes,  avec la possibilité pour les individus d’y accéder, de les corriger et les effacer si besoin. En gros, pour une entreprise standard (donc ni la sécurité sociale ni la sécurité intérieure par ex.), les données doivent être utilisées en toute transparence.

Certains pensent que ce cadre ne permet pas suffisamment de chercher et innover: le Big Data revient à fouiller dans des masses de données, donc impossible de prévoir une finalité à l’avance. D’autres trouvent qu’il y a trop de contournements possibles ou points limites : les cookies des sites internet sont-ils des données personnelles? une entreprise peut-elle fournir une finalité de traitement vague? les données des réseaux sociaux sont-elles publiques? etc… Ce débat est en cours depuis plusieurs années et la CNIL s’adapte pour essayer de ne pas être un frein à l’innovation tout en protégeant les libertés individuelles. L’Union Européenne joue également un rôle prépondérant car une loi, après des années  de tergiversation, devrait aboutir  en 2015 ou 2016 (tripartite cet été).

J’ai personnellement une vision assez pragmatique qui n’engage que moi: à date ce qui peut freiner l’innovation en France n’est pas la loi (qui je le rappelle ne touche que les données à caractère personnel, tout le reste est exploitable à volonté) mais plus les démarches administratives associées à la loi : la CNIL est peu réactive en cas de sollicitation, les demandes d’autorisation mettent un temps certain à aboutir etc… A noter de vrais progrès ces dernières années sur la question des démarches CNIL avec l’apparition de packs de conformité sectoriels qui simplifient la vie sur des familles de finalités (des packs Logements Sociaux, Energie et Assurance ont été mis en place, un pack Banque est en cours).

Y-a-t-il des choses, pourtant légales, que les entreprises doivent s’interdire?

En parallèle des questions légales se posent des questions éthiques car, soyons clairs, la plupart des clients d’une marque n’ont aucune idée de ce qui est fait de leurs données personnelles: oui la loi prévoit une information et un accord explicite, oui la loi prévoit un accès aux données, oui la loi prévoit aussi la possibilité de les modifier. En réalité quasiment personne ne lit les mentions légales et rares sont les gens à demander une mise à jour ou suppression de ce qui les concerne. Cela revient à dire que les entreprises peuvent respecter la loi sans pour autant être bienveillantes vis à vis de leurs clients. Reste donc à chacun de choisir jusqu’où ils peuvent/veulent aller sans risquer un scandale lié à une mauvaise exploitation des données clients, scandale pouvant gravement ternir une image. A titre d’exemple on peut citer le cas de la banque ING aux Pays-Bas qui a dû faire face à des accusations sur la vente de données clients; ces accusations fausses sont arrivées suite à une première communication un peu floue sur un projet d’expérimentation Big Data, bien qu’ING ait rapidement démenti son image a été écornée par les virulentes réactions reprises en chaîne par les médias néerlandais (cf article de l’excellent « C’est pas mon idée« ).

Personnellement dès que j’en ai l’occasion je m’efforce d’enfoncer quelques portes ouvertes: « une relation client n’est viable que dans la confiance, sans pour autant sur-communiquer sur l’exploitation interne des données il faut pouvoir être 100% transparent, si un projet peut être de nature à choquer des clients alors non seulement il ne faut pas communiquer dessus mais en plus il ne faut pas le faire! ». Cet usage responsable des données ne permet peut être pas une innovation à outrance mais limitera le buzz négatif sur l’utilisation des données personnelles, buzz qui pourrait tout à fait être à l’origine des désillusions attendues.

Quelle place souhaitons-nous faire aux données dans notre société?

En captant, mesurant et analysant toujours plus d’informations certaines questions assez profondes et variées se posent : jusqu’où un état peut contrôler les données personnelles pour assurer la sécurité des citoyens? le système médical doit-il alerter les personnes sur leur probabilité d’avoir telles ou telles pathologies graves en analysant les molécules d’ADN? peut-on accepter d’être automatiquement passé au détecteur de mensonges quand on déclare un vol? la sécurité sociale doit-elle scanner les réseaux sociaux pour identifier les faux arrêts maladies? etc.

Qu’on le veuille ou non nos vies digitales ne sont ni anonymes ni invisibles: tout est tracé. Technologiquement rien n’empêche alors un « Big Brother » total si ce n’est le coût (qui baissera inévitablement) et les lois répondant plus ou moins indirectement aux attentes des citoyens.

Sans pouvoir chiffrer ceci précisément ces questions philosophiques se posent de plus en plus, avec notamment des débats très politisés depuis l’affaire Snowden. Quel que soit l’avenir du Big Data il y aura, dans les années à venir, une contestation de plus en plus grande autour de l’utilisation des données personnelles, contestations qui noirciront le tableau du Big Data. Le meilleur exemple étant le « USA Freedom Act » promulgué par Barack Obama en juin 2015 pour limiter les moyens de surveillance de la NSA, véritable retour en arrière par rapport à l’esprit des 10 dernières années. Il n’y a pas vraiment de raison pour que la France ne connaisse pas cette même phase dans quelques temps.

 

En partant du principe que le Gartner a raison, i.e. que l’engouement suscité par le Big Data va chuter, je conclurais en précisant que les principales déceptions opérationnelles ne viendront pas des technologies mais bien du manque de compétences SI pour les mettre en place et les faire vivre. Le manque de compétences « Data Science » ne sera lui pas un frein et participe plutôt au buzz positif. Enfin, et c’est probablement le plus important, les questions légales/éthiques/philosophiques générées par l’utilisation et la place des données personnelles dans nos sociétés vont certainement être à l’origine des futures désillusions. A noter qu’un tel exercice prospectif n’est pas simple et méritera une réactualisation tous les ans pour voir où en sont les technologies, les compétences et le cadre éthique! RDV pris.

5 commentaires sur “Pourquoi la frénésie Big Data s’apaiserait-elle?

  1. Très bonne analyse de 3 freins qui peuvent expliquer le décalage entre les attentes sur le Big Data …. je rajouterai le facteur « culturel » avec l’existence de silos entre les données, renforcé par un découpage actuel des structures des entreprises qui rend difficile les activités du Data Scientist.
    Comme l’a si bien dit Peter Drucker : la Culture mange la Stratégie au Petit Déjeuner ….

    Aimé par 1 personne

    • Bonjour,
      Tout dépend de que vous souhaitez faire, pour stocker et traiter les données avec une technologie hadoop les plus connues sont Cloudera, Hortonworks et MapR. Personnellement, et humblement, je suis incapable de dire laquelle est la meilleure car elles ont toutes des avantages et inconvénients (et je n’ai pas tout vu fonctionner). Pour faire de la BI, de la Data Viz ou de l’analytics c’est encore une autres couche logicielle avec de quoi faire plusieurs articles entiers!

      J’aime

Répondre à René Lefebure Annuler la réponse.