Quels voeux pour le Big Data en 2016? (non non il n’est pas trop tard)

Janvier est traditionnellement le mois des bonnes résolutions et des vœux : santé, bonheur, joie, succès, rigolade, richesse etc… Il n’est donc pas encore trop tard pour se pencher sur ce le cas du Big Data en 2016 : que peut-on souhaiter à un pré-ado en pleine croissance?

Ces 2 dernières années le sujet est passé, dans les entreprises, d’un buzz word (concept fumeux) à une vague de tests en tous genres pour toucher du doigt la valeur business du phénomène. Alors qu’attendre de plus pour les 12 mois à venir?

Une accélération des passages « en production »?

FactoryData

Comme tout nouveau concept objet de belles expérimentations, le Big Data et ses technologies font face à LA difficulté classique : le passage au monde réel i.e. le quotidien industriel des entreprises.

En effet, pour vérifier l’intérêt de la distribution du stockage et du traitement, il n’est aujourd’hui pas si complexe de monter un lac de données sur une infrastructure Big Data; sous réserve d’avoir le temps, les moyens et les compétences adéquates (internes ou externes). Cela fait beaucoup de « si » donc je ne veux surtout rien enlever à ceux qui ont déjà pu mener de tels projets. Une fois cette construction réalisée reste à y charger des données puis les traiter; là encore rien de simple mais avec un peu de patience on peut finir par y arriver.

Sincèrement la plus grosse difficulté, à la fois technique, politique et ROIste (prouver la rentabilité) arrive ensuite, lorsqu’il faut intégrer ces solutions dans les environnements existants. Ca n’est d’ailleurs pas un hasard si la très grande majorité des entreprises exploitant quotidiennement le Big Data sont toutes récentes et « nées » à l’ère du digital (ça va du classique Critéo pour le retargeting à l’excellente nouveauté Clustree dans les RH). Certains plus « anciens » y sont arrivés, par exemple le Crédit Mutuel Arkea, mais ils ont démarré tôt leurs démarches, en 2009 dans ce cas précis.

Dans les entreprises avec un système d’information historique déjà développé on constate alors un potentiel Big Data naturel sur les besoins nouveaux : par exemple la collecte et l’analyse des données digitales des clients (les fameuses DMP), ou bien des données « machines » pour de la maintenance prédictive. Bref, pour éviter d’investir d’importantes sommes dans des opérations déjà (partiellement) traitées on se concentre sur les innovations. C’est une première étape de développement qui en appellera probablement d’autres si les fameuses « mises en production » s’avèrent des succès.

Un peu plus d’importance accordée à la matière première: la donnée

DataMatierePremiere

Il arrive régulièrement de voir des POC (Proof Of Concept) sur les technologies Big Data ou sur les méthodes prédictives de pointe. Mais au final, pour obtenir de l’information plus pertinente, rien de tel que de partir de données plus riches: meilleure qualité, meilleure préparation, sources plus nombreuses (même internes) etc… Ce travail autour de la donnée n’est clairement pas le plus sexy, il reste cependant fondamental.

Si ces questions sur les Data sont parfois mal traitées c’est aussi, et surtout, parce qu’il est compliqué de bien « manager » ses données, d’intégrer de nouvelles sources et si possible d’automatiser le tout. Il s’agit des tâches chronophages (~2/3 du temps d’un projet) et complexes techniquement, elles demandent une expertise rare.

Je parle là bien sûr de « Gouvernance de la donnée« : comment organiser la donnée pour enrichir l’information disponible? Même si le thème est encore flou il est indispensable de se pencher sur les questions qu’il suscite sans quoi le moteur tournera à vide.

Une touche d’éthique pour préparer l’avenir

RepNum

Le respect de la loi Informatique et Libertés est un incontournable. Toute personne travaillant dans ce domaine a intérêt à connaître les bases de cette loi sur les données à caractère personnel: comment les collecter? comment les utiliser? quelles obligations en termes de gestion? etc… Ce cadre prend d’autant plus d’importance que le rôle de la CNIL a été renforcé dans le projet de loi République Numérique.

Mais, doit-on, en tant que marque connue ou simple citoyen, réellement se limiter à la législation alors qu’il s’agit d’une problématique nouvelle en pleine évolution?

J’aurais tendance à dire « non, 3 fois non », les entreprises ont un devoir de transparence et de respect si elles veulent s’inscrire dans le long terme; on peut même considérer qu’il appartient à chacun de faire avancer les débats, que ce soit en participant aux consultations lors des projets de loi ou en soutenant l’incroyable démarche « Open Data » enclenchée par Henri Verdier, démarche concrétisée à travers le site Data.gouv.fr.

Des tas de questions restent à traiter sur ces sujets-là : quelle gestion pour les données issues des objets connectés (par exemple les voitures connectées)? quelle législation sur la maîtrise des algorithmes? quelles évolutions attendre sur les données de santé? quelles données (non personnelles) les entreprises doivent-elles rendre publiques pour le bien de tous?

Autant de points sur lesquels je n’ai bien sûr pas la prétention d’avoir un avis si ce n’est de dire qu’il faut y réfléchir aujourd’hui avant d’être rattrapés par des scandales.

Et si on souhaitait tout simplement au Big Data de disparaître des discussions ?

Arrêter d’en parler ne signifierait pas un manque d’intérêt mais tout simplement une normalisation du phénomène. Cela éviterait peut être de mettre les mots Big Data à toutes les sauces, car finalement c’est juste une autre façon d’exploiter, au sens large, les données.

Bon, soyons honnête, ce vœux me parait un peu prématuré en 2016, d’une part car nous sommes loin d’avoir épuisé le potentiel « mode » de ces termes, d’autre part car les systèmes de stockage et traitement plus traditionnels (par exemple Oracle) ont encore de beaux jours devant eux – il faut donc bien un nom pour les nouvelles solutions. Il est ainsi peu probable que les éditeurs, consultants, ou autres experts bannissent, à court terme, ces 2 mots de leur vocabulaire.

Ceci dit vivement que ça arrive car on peut encore entendre/lire tout et n’importe quoi sur Hadoop, le Machine Learning, la Data Management etc… Peut-être que cette année le relais sera pris, au moins dans le secteur financier, par la blockchain qui concentre beaucoup d’idées reçues assez rigolotes, je vous laisse découvrir tout seul ce qui se cache derrière cette notion (je préfère passer mon tour et laisser la place aux spécialistes).

Blockchain-Logo-Blue6

 

Alors bonne année au Big Data à qui l’on peut souhaiter un peu plus de maturité business, le tout dans un cadre éthique à construire. Rendez-vous l’année prochaine pour voir si les choses ont évolué.

 

Le Big Data prend le pouvoir à Hollywood!

Evoquer les termes « Big Data » et « cinéma » fait généralement penser aux films d’anticipation mettant en scène des sociétés régies par la logique implacable des données collectées. Je fais bien sûr référence à Minority Report (la police détecte les crimes avant qu’ils n’arrivent), 1984 (tiré du roman d’Orwell où tout est surveillé, contrôlé et analysé), Matrix (monde virtuel créé par la logique des machines), Bienvenue à Gattaca (les génotypes sont maîtrisés sans place pour le hasard) ou plus récemment l’excellent Her (les nouveaux systèmes d’exploitation – windows par ex. – deviennent les amis parfaits des êtres humains). Certaines utilisations actuelles du Big Data peuvent d’ailleurs faire penser à ces films, citons par exemple l’outil de prévention anti-crime de PredPol utilisé aux Etats-Unis qui aurait sa place dans Minority Report à côté de Tom Cruise (cf article sur la lutte contre la criminalité).

Hollywood

Cependant, que ceux qui ne sont pas passionnés par les débats sur le pouvoir visionnaire du cinéma se rassurent, l’objet de cet article est bien de parler du Big Data et de détailler son impact sur l’industrie du cinéma.

Les nouveaux outils de traitement des données de masse (Big Data) ont ouvert 3 types de porte dans le monde du cinéma (principalement à Hollywood):

  • un changement, avant la réalisation, au coeur même du 7ème art: le scénario (capacité à être un succès, quels ajustements nécessaires etc…)
  • l’accélération, pendant la réalisation, de l’utilisation des nouvelles technologiques (notamment la 3D plus simple et moins chère grâce au Big Data)
  • une meilleure efficacité commerciale, après la réalisation, grâce à une distribution ciblée (à qui s’adresse le film? quel mode de communication? quelle canal de distribution privilégier? etc.)

 

Le Big data comme outil d’aide à la construction du scénario

1f42d23

La rédaction d’un scénario est en général une étape hautement créative, où l’auteur peut soit répondre à une commande précise (par exemple Shane Black avec la suite d’Ironman en héros miné par les doutes) soit simplement vouloir raconter une histoire qui lui tient à coeur (par exemple Quentin Tarantino qui souhaitait réinventer le western spaghethi et traiter le sujet de l’esclavage avec Django Unchained).

Quel que soit le poids des producteurs il s’agit dans tous les cas d’un travail personnel faisant appel à la fois à des notions objectives comme l’expertise du scénariste mais aussi à de l’irrationnel: l’intuition et la sensibilité de l’auteur peuvent toucher le spectateur et générer des succès inattendus (Bienvenue chez les Ch’tis, Very Bad Trip, Juno etc…). Mais patatras, dans ce paysage ou l’incertitude faisait partie du jeu, un nouveau service est arrivé en 2005 proposé par le Worldwide Motion Picture Group: la « script evaluation ».

Pour 20 000$ MPG analyse le scénario et projette sa probabilité de succès commercial : quel bénéfice potentiel? quelle facilité à le vendre? quels seront les points forts du film sur lesquels capitaliser? etc… Cette analyse se base sur l’ensemble des données historiques en modélisant toutes les caractéristiques du film. L’approche data nécessite toutefois d’être complétée par des questionnaires pour tester le concept (auprès d’environ 1500 personnes) et si besoin de groupes de discussion plus qualitatifs pour bien comprendre les ressentis des consommateurs. Tout ceci donne alors lieu à un rapport d’une trentaine de pages compilées par les analystes du MPG, présentant le potentiel du film et les pistes d’amélioration. A titre anecdotique les exemples cités dans la presse parlent du fait que dans un film d’horreur les démons directement présents génèrent plus d’entrées lors du week end d’ouverture que les démons invoqués – la scène d’invocation autour de la table est donc à supprimer… De même les scènes de Bowling sont statistiquement nettement plus présentes dans les flops (The Big Lebowski doit bien rigoler).

Ce service, plutôt sous forme de consulting en 2005 s’oriente de plus en plus vers une approche statistique, avec un succès grandissant : plus d’une centaine de scénarii analysés ces dernières années ayant généré à chaque fois un minimum de $100 millions de revenu (dont des oscarisés). Les spécialistes s’accordent d’ailleurs à dire que les producteurs et les studios vont de plus en plus solliciter ce type de service (cf article NYTimes).

Pour être totalement honnête je dois avouer que la recette analytique du service « script evaluation » est très secrète, je n’ai donc aucune certitude sur le fait que les outils et méthodes soient issues du Big Data et pas « juste » de l’analyse de données classique. Cependant la réussite de cette approche laisse clairement penser que cela va s’élargir au-delà d’Hollywood et même au-delà du cinéma: les séries, documentaires, émissions et autres programmes pourront passer dans un moteur analytique pour en décortiquer le potentiel. Qui dit élargissement dira industrialisation du procédé, automatisation des analyses et volume de données exponentiel, le Big Data sera bien là.

Bien évidemment la « script evaluation » par des algorithmes statistiques n’enchante pas les scénaristes, c’est peu de le dire. Ils se sentent bridés dans leur démarche créative et refusent d’appliquer à la lettre des principes « juste parce qu’ils ont fonctionné avant ». Ils n’ont pas forcément tort, les spectateurs ne vont pas au cinéma pour perpétuellement voir des remakes de gros succès. MPG se défend en argumentant qu’il ne s’agit pas de directives mais de conseils pour maximiser le succès sur la base du passé, chacun est libre d’en faire ce qu’il veut. Le débat est loin d’être fini car si d’un côté les producteurs ne se priveront jamais d’une prévision de la rentabilité, de l’autre, la créativité et l’originalité seront toujours des facteurs clés de succès des films. Bref, l’équilibre entre rationnel et intuition reste à construire, nous verrons bien d’ici 2020!

 

Le Big data comme outil d’aide à la réalisation

Lunettes3D

Une fois le script finalisé (scénario détaillé) il reste le film à tourner. Là aussi le Big Data est en train de bousculer les conventions, cette partie là étant toutefois moins polémique que la standardisation des scénarios (cf ci-dessus).

Depuis le succès d’Avatar personne n’a pu rater la révolution 3D au cinéma, quasi tous les « blockbuster » (gros budget et gros revenu) sortent en 3D pour donner l’impression au spectateur d’être au coeur de l’action. Il existe plusieurs possibilités pour restituer un film en 3D: le tourner nativement avec 2 caméras (les « 2 yeux ») ou le tourner avec 1 caméra et ensuite le transformer en 3D. Dans les 2 cas le traitement de l’image est réalisé par des entreprises spécialisées, comme par exemple Gener8, et demande la manipulation d’énormes quantités de données.

Les progrès liés au Big Data ont ainsi été intégrés tôt sur ce secteur bien particulier, rendant la transformation de la 2D en 3D à la fois beaucoup plus rapide et beaucoup plus qualitative. Le rendu des premiers films 2D transformés en 3D n’était pas comparable au véritable tournage natif en 3D alors que la différence est beaucoup plus faible aujourd’hui. La plupart des grands classiques tournés vivront probablement une nouvelle sortie en 3D (cf article Streetwise).

Gener8 citée ci-dessus a beaucoup investi dans le Big Data notamment dans la gestion des données via le Cloud et des logiciels de traitement. A tel point qu’ils ont même créé Cumul8, filiale proposant des services autour du Big Data qui n’ont plus aucun lien avec le cinéma (stockage des données, outils d’analyse, reporting etc…).

A noter que HP aussi se positionne sur le créneau du cinéma en proposant des solutions de gestion des données, de distribution des films et même d’écoute des tendances sur les réseaux sociaux pour trouver les futurs sujets à succès (cf HP Next).

 

Le Big Data comme outil d’aide à la distribution

Multidevice

Comme tout produit fini un film a besoin d’être vendu, avec des questions légitimes du type « quelle cible? », « quels atouts à mettre en avant? », « où et quand distribuer le film? », « par quel canal? » etc…

Ces questions peuvent être anticipée et corrigée en temps réel en intégrant par exemple:

  • le « prébuzz » avant la sortie du film, ce que les réseaux sociaux en pensent et en attendent, comme par exemple avec le l’outil « Film Forecaster » développé par IBM et Annenberg Innovation Lab. Cela aide à faire la promotion, allant du montage de la bande-annonce jusqu’au contenu du site internet du film
  • l’étude de notre consommation audiovisuelle, scrutée par exemple par Rentrak : qui regarde quoi? à quelle heure? sur quel écran? à quel prix? etc… Cela aide à choisir les meilleurs canaux et les meilleurs formats
  • l’écoute des réseaux sociaux (Twitter et Facebook principalement) qui permettra de voir si le bouche à oreille est intense et positif, par exemple avec l’outil d’IBM Social Sentiment Index. Ceci est très utile pour anticiper l’échec ou le succès afin de prévoir le nombre de salles nécessaires dans x semaines

Bien entendu un mauvais film, quelque soit sa distribution et promotion, ne rencontrera jamais un grand succès. A l’inverse, les outils d’aide à la distribution pourront éviter des échecs injustes (qui finissent en général par être reconnus à leur juste valeur en location).

 

Que l’impact soit perçu comme positif ou négatif le Big Data n’en est de toute façon qu’au début de sa prise de pouvoir au sein de l’industrie du cinéma tout simplement car il sert la rentabilité du secteur. Espérons alors que la standardisation redoutée n’aura pas lieu et que la créativité et l’originalité seront finalement d’autant plus valorisées que tout le reste est sous contrôle.