Les experts big data sont-ils nuls en calcul ?

« 90 % de l’ensemble des données du monde ont été créées ces deux dernières années ». 

Vous avez certainement tous déjà entendu cette phrase. Il n’existe pas un événement big data, conférence ou autre, où elle n’est pas prononcée en introduction. Chaque article sur le sujet des big data ou plus généralement de la transformation digital, débutera invariablement par cette phrase.

« 90 % de l’ensemble des données du monde ont été créées ces deux dernières années ».

Bon, d’accord, on veut bien le croire, mais c’était quand ces « deux dernières années » ? Parce que si l’on parcours les moments auxquels cette phrase a été prononcée, elle ne signale pas toujours les 2 mêmes « deux dernières années ».

S’agit-il de « deux dernières années » abstraites ? La phrase est-elle valable quelle soit prononcée en 2012, en 2015 ou en 2017 ? Ou les experts du big data n’ont-ils rien à fiche de la rigueur mathématique ?

A la recherche des deux dernières années

On retrouve cette phrase, par exemple, en mars 2017, dans cet article d’un expert sur le site de la banque Edmond de Rothschild.

Ce serait donc au cours des années 2015 et 2016 que 90 % des données mondiales auraient été créées.

A moins que…

On retrouve la même citation en avril 2014 sur le site de France Stratégie.

Alors ce serait plutôt les années 2012 et 2013.

Sérieux, qui a dit cette phrase en premier ?

On signale généralement Stephen Gold,  à l’époque directeur marketing d’IBM (aujourd’hui il travaille chez Honeywell), comme l’auteur de cette phrase. Il l’aurait prononcé lors d’un événement web à Montréal en mai 2012.  « 90% of all data in the world has been created in the past two years »

Ce qui laisse à penser que 90 % des données ont été créées en 2011 et 2010.

Si on creuse encore, on retrouve cette citation en octobre 2011 dans une étude (CMO Study) réalisée par IBM.

A date nous n’avons pas réussi à remonter plus loin. Donnons la paternité de cette phrase à IBM et convenons donc que 90 % des données auraient été créées en 2010 et 2009.

Des petits malins pour brouiller les pistes

Signalons quand même quelques petits malins qui on essayé de brouiller les pistes.

Ainsi Christian Wright, directeur général de e-Dialog qui a entendu dire que IBM a dit

que… « 92 % de l’ensemble des données du monde ont été créées ces deux dernières années ». 

Moralité : ne croyez pas tout ce qu’on vous dit !

 

Des Big Data aux Small Data en passant par les Smart Data

Big Data, Small Data, Smart Data… Que de data ! Les données se conjuguent à tous les temps et font assaut d’adjectifs.

C’est le sujet de l’année 2015. On va manger du big data pendant 12 mois (et plus si affinité). On vous propose de réviser vos déclinaisons pour briller devant votre directeur informatique.

D’abord c’est quoi les big data ?

Rassurez-vous, vous n’êtes pas le/la seul(e) à vous poser cette question (moi-même…). Il y a des termes que l’on n’emploie tellement à un moment donné qu’on ne sait plus à quelle réalité ils renvoient. Si on traduit (bêtement) en français on arrive à « grosses données ». Avouez que c’est assez vilain. Le journal officiel du 22 août 2014 préconise d’utiliser en français le mot mégadonnées. C’est quand même plus impressionnant.

Le même Journal officiel donne la définition suivante des big data / mégadonnées : données structurées ou non dont le très grand volume requiert des outils d’analyse adaptés.

Belle définition car la problématique big data réside bien dans le fait que ces données soient « structurées ou non ». C’est là que le sport commence !

Les défis que nous lancent les big data sont justement notre capacité à stocker, accéder, traiter et analyser le gigantesque flux de données générées par les technologies de l’information.

D’où d’écoule la notion de small data.

Et les small data, c’est quoi ?

Là rien d’officielle pour les small data. C’est plutôt une adaptation des big data à la vie de tous les jours.

L’idée est de dire qu’aujourd’hui la majorité des entreprises :

  1. n’ont pas la capacité de collecter les données en masse,
  2. si elles en ont la capacité, elles ne savent pas les exploiter,
  3. qu’en revanche elles disposent de nombreuses « petites données » facilement exploitables qui leur permettent déjà d’en savoir beaucoup sur leurs clients.

Au lieu de chercher à exploiter une masse de données hors de leur portée, la plupart des entreprises feraient mieux d’exploiter plus largement ces petites données, à leur mesure, et qu’elles génèrent tous les jours.

Prenons un exemple trivial : êtes vous certain de connaître avec précision les heures auxquelles votre centre de contacts est le plus sollicité ? Ces données sont-elles identiques qu’elle que soit la période de l’année ou les jours de la semaine ?

Et si vous le savez, que faites-vous de ces informations ? Et vous sont-elles toutes utiles ? On vient par exemple de vous proposer un tableau dans lequel on croise l’absentéisme avec le plat du jour de la brasserie d’à côté…

Vous me voyez venir : place aux smart data !

Les smart data, donc !

Les smart data seraient de la small data intelligente. Parce que mis bout à bout plein de petites data ça commence à faire de la grosse data. Et tout n’est pas pertinent.

Collecter et analyser des données n’a de sens que si cette action donne une information pour décider. La beauté du beau geste mathématique ou statistique n’a que peu d’intérêt dans l’entreprise.

L’idéal est de limiter le volume de données collectées et analysées au niveau qui permet d’obtenir une réponse aux questions que l’on se pose pose. Reprenons notre exemple du centre d’appels : je n’ai peut-être pas besoin de connaître la distribution des appels par minute ; ou connaître le sexe ou distribution géographique des appelants…

L’objectif des chiffres est de nous rendre plus intelligent et mieux armé pour agir. Pas d’en jeter plein la vue. Arrêtez-donc de regarder des chiffres qui ne vous servent à rien. Vous avez mieux à faire, non ?

 

Le big data c’est fini. Place à l’analyse des données.

A peine s’est-on familiarisé avec l’expression big data qu’on nous en annonce la fin. Pour être plus juste, ce qu’on nous dit c’est que la question centrale n’est pas celle des big data mais l’analyse des big data. Les enjeux et les marchés à valeur ajoutés sont d’abord dans l’analyse avant la collecte.

Des milliards d’appareils connectées. Des données collectées par milliards de milliards. Pourtant 99,5 % des données collectées par les entreprises ne seraient jamais analysées. (MIT Technology Review)

Ce n’est pas de big data dont on a besoin mais de big interprétation. (Graham Gillen – Search Technologies)

Côté métiers, les recruteurs seront avides non plus de simples analystes de données mais d’acteurs qui seront capables de les raconter, de les expliciter en communiquant efficacement à propos de leurs analyses et de leurs résultats.  (Elsa Trujillo – Microsoft)

L’enjeu de l’analyse de données c’est l’automatisation de 50 % des processus manuels. (Cisco)

 

4 mythes sur le big data selon Gartner

« T’en es où toi en ce qui concerne les big data ? ». On en a tellement parlé en 2014 que le sujet est presque devenu anxiogène pour les entreprises et les directions informatiques. Heureusement il y a cette étude Gartner sur les mythes qui entourent le big data. On a sélectionné 4 mythes qui vont vous permettre de vous détendre… ou de vous inquiéter un peu plus.

Pour rappel, et pour ceux qui auraient raté l’année 2014, les big data sont la capacité de stocker, d’accéder, traiter et analyser le gigantesque flux de données générées par les technologies de l’information. 

4 mythes sur les big data :

1/ Tout le monde est en avance sur nous concernant l’adoption des big data

Rassurez-vous, seules 13 % des entreprises ont développé des solutions d’exploitation des big data.

2/ On a une telle masse de données qu’il n’est pas utile de se focaliser sur la qualité de certaines données

Les mauvaises données seront perdues dans la masse. Sauf si elle deviennent la masse. La question de la qualité des données doit rester au centre de la préoccupation des entreprises. D’autant plus qu’une grande majorité de ces données proviennent de plus en plus de sources extérieures à l’entreprise.

3/ Avec les technologies big data on n’a plus besoin de s’embêter avec l’intégration des données

Bien sûr ! Si le but est d’additionner des tomates et des carottes, faites donc. Les données, elles, continuent à provenir d’environnements spécifiques et contextualisés. Les technologies ne supprimeront pas de si tôt le travail d’agrégation des données.

4/ Les technologies big data sont arrivées à maturité et vous pouvez les adopter sans risque

Le taux adoption est encore trop faible pour parler de maturité de l’écosystème big data. D’un autre côté les intervenants sur  marché (juteux) sont nombreux et ne disposent pas tous du même niveau de compétence.

 

 

Un modèle mathématique pour prédire, avant qu’elles n’apparaissent, les tendances sur Twitter

Et si la masse d’information qui transite sur les réseaux sociaux permettait de prédire l’avenir ?  On y est presque. Un chercheur du MIT, le professeur Devavrat Shah, et son élève Stanislav Nikolov affirment avoir mis au point un algorithme capable de prédire les tendances Twitter quelques heures avant qu’elles n’apparaissent sur le site.

Pour rappel, les tendances Twitter sont ces mots clés générés par Twitter lui-même à partir  de l’analyse des tweets en temps réel. C’est un peu le sujet du moment sur le site.

Selon Devavrat Shah, le degré de précision de son algorithme serait de 95 %. Le modèle peut donc prédire quels seront les sujets à la une avant qu’ils ne fassent la une.  Vous vous souvenez de Minority Report, le roman de Philip K. Dick, où la police était capable de détecter les criminels avant qu’ils n’aient commis le moindre crime ?

Les inventeurs du modèle prédictif imaginent d’autres usages.

Pour Twitter d’abord qui pourrait utiliser l’algorithme à des fins publicitaires en commercialisant ces mots clés  (comme un pari sur l’avenir proche).  Le site pourrait également tirer parti de la capacité de prédiction du modèle pour attirer et retenir toujours plus de visiteurs : je vais aujourd’hui sur Twitter pour savoir ce qu’il se passe en temps réel ; demain j’irai sur Twitter pour savoir ce qu’il se passera dans 2 heures.

Mais Devavrat Shah lui même imagine déjà d’autres applications : le temps de trajet d’un bus, la prévision d’entrées d’un film voire l’évolution d’un cours de bourse.

En définitive, et sous certaines conditions (les données du passé ne sont pas toujours un indice de l’avenir), les applications de l’algorithme pourraient être infinies à condition de disposer de suffisamment de données, que celles-ci soient historisées et apparaissent à intervalles réguliers.

A chacun, dans son domaine d’expertise, d’imaginer la suite.

(plus de détails sur le site du MIT – en anglais)