Big Data : les 5 tendances des prochaines années

La grande messe annuelle française du Big Data s’est tenue les 10 et 11 mars derniers à la Défense, ce fut l’occasion de confirmer le début du 2ème âge des « mégadonnées » en France (Salon Big Data Paris 2015). Il s’agissait de la 4ème édition avec toujours plus de conférenciers (une centaine), de stands (une centaine aussi) et de visiteurs.

Le nombre de produits et services autour du Big Data ainsi que la variété des usages illustrés pendant ces 2 jours ont appuyé un message qui semblait faire consensus. Ce message fut notamment passé par les intervenants de Cap Gemini (qui citaient une étude réalisée par leurs soins): 2014 fut une année de transition entre un premier âge où la plupart des entreprises se demandaient s’il fallait se lancer dans le « Big Data » et une nouvelle ère (disons à partir de 2015) avec des expérimentations, plus ou moins avancées, un peu partout. Leur étude a montré que mi 2014 près de 2/3 des décideurs étaient persuadés que le Big Data allait changer leur business, il y a même 1/4 d’entre eux qui considéraient que leur marché avait déjà dû faire face à une rupture initiée par de nouveaux arrivants.

Bref, le Big Data, même en France, est un sujet présent dans la plupart des roadmaps au sein de tous les secteurs. Au-delà de ce constat qui appuie bien l’idée d’un mouvement de fond et non pas d’un simple effet de mode, les dernières études et conférences ont mis en avant quelques tendances notables. Voici ce que je retiens aux niveaux technologiques, usages analytiques, usages business intelligence, organisationnels et éthiques.

BIG_DATA_PARIS_2015

1) Hadoop toute! Mais quid du SI décisionnel?

Les solutions d’infrastructures dites « Big Data », i.e. celles construites sur du Hadoop, n’ont pas changé: Cloudera, Hortonworks etc… Par contre une tendance nette, confirmée cette année, est que tous les grands noms de la donnée se sont adaptés et sont désormais « compatibles Hadoop » : ils construisent des solutions autour d’Hadoop. Ceci est vrai pour ceux proposant des infrastructures (Teradata, SAP, Oracle) ainsi que ceux qui « exploitent » la donnée à des fins de Business Intelligence (tableaux de bord) ou des fins analytiques comme par exemple SAS, IBM (SPSS), SAP (InfiniteInsight), etc…

Sauf erreur de ma part il n’existe plus un seul éditeur ne proposant pas de telles solutions que ce soit pour du stockage, du traitement, de la visualisation ou de l’analyse de donnée. Ce phénomène n’est pas nouveau mais il confirme que le modèle distribué (Hadoop) s’est totalement imposé.

La question suivante est donc de savoir si ce type d’infrastructures va remplacer l’existant et notamment les SI décisionnels traditionnellement bien structurés, administrés et très fiables? Très honnêtement il est difficile de se faire une religion sur ce point, la seule certitude est qu’il s’agit bien de LA question du moment (en tout cas sujette à de nombreuses discussions). D’un côté les modèles distribués ont un coût de stockage faible et un potentiel énorme devant eux (de nombreuses améliorations devraient arriver), de l’autre les modèles standards de base de données sont fiables, assurent l’activité opérationnelle (le transactionnel, le décisionnel etc…) et sont bien structurés donc simples à administrer.

A l’heure qu’il est la plupart des fournisseurs proposent des modèles hybrides pour ne pas casser l’historique: le décisionnel classique subsiste avec en parallèle la création de lacs de données pour ingérer les données non structurées mais aussi décharger à moindre coût tout ce qui n’a pas forcément sa place dans les bases structurées (de l’historique très volumineux par exemple). Est-ce une première étape vers du 100% Hadoop? Oui sûrement un jour nous y serons mais, vu l’ampleur des projets, les entreprises avec un héritage SI lourd mettront un temps certain pour y arriver.

A noter, remarque toute personnelle, que les termes « décisionnel » ou « transactionnel » font penser à des structures de système d’information alors qu’en fait il s’agit d’un usage. Ainsi, d’un point de vue purement sémantique, à moyen/long terme si la tendance se confirme le « décisionnel » ne disparaitra pas pour autant, il s’appuiera juste sur une infrastructure type Hadoop.

 2) Des usages analytiques qui continuent de se diversifier, avec une récrudescence des exemples RH

IBMWatsonAnalytics

Sans surprise tout ce qui tourne autour de la connaissance client est systématiquement cité: détection de clients churners (qui quittent une marque), modélisation des meilleurs parcours clients, analyse des attentes clients,  etc… Autant de thèmes que l’explosion des sources de données permet de comprendre plus finement.

D’autres nombreux cas d’usage ont aussi été abordés:

  • comme  la lutte contre la fraude fiscale  avec de l’analyse de réseaux (cf article de l’iFRAP sur la lutte anti fraude fiscale)
  • de l’écopilotage grâce à l’analyse des informations au décollage, le but étant d’économiser du carburant lors de la montée de l’appareil
  • des nouveaux services autour du stationnement par Parkeon (leader des horodateurs): application grand public pour trouver des places libres! (en test à New York, cf article)

Enfin, un domaine a donné lieu à de nombreuses illustrations innovantes et a probablement un bel avenir devant lui: l’exploitation des données pour une meilleure gestion RH. En effet, à titre d’exemple, le salon a été l’occasion d’entendre parler d’un projet de Randstad qui utilise le Big Data pour matcher les CV et Offres d’emploi, au départ les données étaient purement internes alors que maintenant elles sont aspirées depuis tout le web (dont les réseaux sociaux professionnels). IBM a aussi fait une excellente démonstration de Watson Analytics appliquée à l’analyse de la rétention des employés (quels leviers pour fidéliser les employés? cf article). L’apport des approches analytiques sur l’activité RH a été fortement appuyé et je pense qu’il ne s’agit que du début d’une vraie déferlante d’applications de ce type (d’autant plus que les directions RH sont traditionnellement peu équipées en compétences « Data Science »).

3) Le Big Data ne se limite pas à l’analytique ou le prédictif

BI

La force prédictive du Machine Learning fait rêver et génère un grand nombre de projets (cf paragraphe ci-dessus), pour autant la tendance forte du moment réside presque plus dans l’intégration de ces technologies dans la Business Intelligence, tout particulièrement dans la Data Visualisation (sous partie de la BI).

Petit aparté sur la définition de ces termes: la Business Intelligence ou « BI » correspond à la science des tableaux de bords, il s’agit d’aider au pilotage d’une entreprise et à la prise de décision grâce à des reporting dynamiques, sur-mesures et percutants; la Data Visualisation est la capacité à représenter des données de manière visuelle pour les faire parler (graphiques, réseaux, bulles, flux, nuages etc…).

Au départ ce domaine n’est pas forcément lié au Big Data car avoir un reporting efficace ou un graphique compréhensible était déjà compliqué sur n’importe quelle base conséquente. Par contre la multiplication des sources de données (notamment les non structurées) ainsi que la capacité à les collecter en temps réel a remis ces sujets sur le devant de la scène. Dans cet écosystème tous les acteurs présentent maintenant leurs solutions compatibles Big Data et promettent de tirer le maximum de ces nouvelles montagnes d’information; Qlik et Tableau tirent le marché suivi des noms historiques (Business Object de SAP, Cognos d’IBM, Microsoft, Microstrategy). Tout ceci est bien entendu complété par une multiplication des start-up sur ce thème là (Captain Dash, Vize, MyDataBall etc…).

Ce n’est peut-être pas là que le Big Data va le plus impacter les business modèles des entreprises mais le sujet de la BI et de la Data Visualisation n’est pas prêt de se tarir, avec probablement un marché qui va croitre et évoluer très vite dans 2 à 5 ans à venir (fusions, rachats, nouveaux venus etc…). Cf le Magic Quadrant Gartner sur la BI.

4) Des organisations pas encore prêtes à prendre le virage

L’ensemble des exposants ayant parlé de leurs propres expériences (SFR, Néopost, Solocal, Cap Gemini etc…) ont tous cité, en tête de liste, l’aspect humain comme facteur de réussite ou échec. Là on enfonce un peu une porte ouverte mais il est clair que les sujets Big Data ont des impacts lourds: nouveaux métiers (Data Science), gouvernance de la donnée, sujets transverses, projets agiles etc… Comme tout sujet nouveau cela suscite de la crainte, la résistance au changement est inéluctablement un frein à l’installation du Big Data dans les entreprises.

Ainsi les témoignages insistent sur le fait que finalement les difficultés concernent moins les technologies (car les solutions sont maintenant matures) ou les compétences (car cela s’acquiert) que l’aspect humain qui est souvent, à tort, relayé au dernier plan. A part les start-up nées à l’ère digitale tout le monde est confronté à cette problématique. Pour y faire face je n’ai pas entendu de recette miracle, les recommandations sont plus un patchwork d’actions de change management: faire participer un maximum de personnes à la construction des projets, communiquer de manière rassurante, former les collaborateurs à la fois pour de l’acculturation mais aussi pour avoir de vrais experts ambassadeurs, etc…

Au final la question revient à se demander s’il faut tester le Big Data de manière un peu confidentielle (pour aller vite) avant de lancer un programme plus large légitimé par les expérimentations, ou bien dès le départ prendre le temps d’éduquer, communiquer et co-construire même les premières expérimentations (au risque d’avancer très lentement). Pas sûr qu’il y ait de bonne ou mauvaise posture sur ce point car la décision se situe à un niveau stratégique et dépend de la situation et des besoins de l’entreprise.

 5) Tous responsables du défi éthique

Ethic

Les réglementations en place protègent les consommateurs contre une exploitation de leurs données personnelles, en effet chaque collecte de donnée impose une autorisation « éclairée » de son futur usage. Ces réglementations sont cependant plus souples notamment aux Etats-Unis et au Royaume-Uni; par ailleurs le côté innovant et exploratoire du Big Data ne pourra pas toujours respecter de telles contraintes et certains contournements ou abus seront probablement à déplorer.

Sans pouvoir systématiquement compter sur les états ou administrations les utilisateurs des données devront s’autoréguler sans se cacher derrière les avancées technologiques. Doug Cutting lui-même (père fondateur du Big Data – Hadoop) l’affirme : « la technologie va permettre de changer le monde, à nous de faire qu’il change en bien » (en s’adressant à une salle de décideurs du Big Data en entreprise). Globalement le discours est à la responsabilisation de chacun, à une régulation de marché secteur par secteur car les organismes de contrôle ne pourront pas tout voir ni tout anticiper.

Ceci est facile à dire alors qu’on sait qu’en réalité le « tous responsables » fonctionne rarement. J’invite toutefois, dès que l’occasion se présente, chacun à travailler les données « en toute transparence, comme s’il était possible d’expliquer son travail en détail à des clients sans les choquer », ceci n’est pas juste utopiste mais sain à long terme pour une relation viable avec ses clients. Les quelques-uns qui peuvent survivre sans être vraiment transparents sont en général en position de monopole avec un service inégalé à ce jour (Facebook, Google par exemple, cf article transparence Facebook); ces exceptions ne pourront pas servir de règle et j’aurais peu d’espoir pour l’avenir d’une entreprise qui aurait des pratiques inavouables.

 

Voilà pour les dernières tendances, en partie piochées lors du salon Big Data Paris 2015, qui seront à suivre l’année prochaine. Je pourrai alors, dès mars 2016, confirmer ou ajuster ces prévisions!