La solution Big Data
On ne parle plus que du « Big Data » : il est devenu la dernière formule à la mode. De grandes sociétés telles qu’IBM le présente comme un nouvel eldorado, un outil de croissance pour leurs clients. De plus, elle le considère pour elles-mêmes comme un axe stratégique majeur de développement et d’innovation. Le « Big Data » nous séduit pour la puissance, la connaissance et le contrôle qu’il nous donne sur notre environnement. Pour autant, certains s’élèvent contre cette approche jugée trop techno-centrée.
Définition du Big Data
Elle se caractérise par les 3 V :
– Volume : avec une masse de données colossale (mégadonnées), il est impossible de traiter et d’analyser l’ensemble des informations sans recourir à des solutions Big Data. De plus, d’importants volumes de données nécessitent également un espace de stockage de données conséquent qu’on peut par exemple placer sur le cloud et traiter avec Hadoop.
– Vélocité : dans une société où tout va extrêmement vite, il est important de s’équiper de systèmes permettant de créer, collecter et partager rapidement les informations. En la matière, il faut donc s’équiper de machine-learning (intelligence artificielle) capable de faire une analyse prédictive grâce à ses algorithmes et d’exploiter des données en temps réel.
– Variété : l’ensemble des données collectées présentent une grande diversité (texte, images, vidéos, audio, flux, objets connectés, email, réseaux sociaux, géolocalisation…).
Au final, la connaissance ne finit-elle pas par être noyée dans trop de données ? Cela ne coûte-t-il pas globalement très cher d’opter pour la business intelligence pour un retour sur investissement non assuré ? Enfin, le « Big Data » ne fournit-il pas qu’une vision de la réalité figée et donc décorrélée de la dynamique temporelle ?
Les erreurs à éviter dans l’analyse Big Data
Une autre erreur pourrait consister en une mauvaise segmentation en se basant sur les mauvais critères. En effet, d’énormes volumes de données mènent souvent à empreinter des raccourcis pour en tirer des généralités. On peut également être tenté d’interpréter les résultats dans le sens qui nous convient en raison de son expérience personnelle alors que le marketing de l’entreprise peut s’avéré obsolète.
Le Long Data, une approche intégrant la durée qui donne du sens
Certains auteurs ont une approche différente qui privilégie le « Long Data ». Celui-ci traite des
données historiques massives couvrant une très longue période. D’autant plus depuis que les gouvernements mettent une partie de leurs données en libre accès (Open Data). Parmi ces auteurs, citons :
- Michael Kremer, auteur de « Croissance de la population et changement technologique de 1 million d’années avant J.C. à 1990 »
- Tertius Chandler, auteur de « 4 siècles de croissance urbaine »
- ou Emmanuel Le Roy Ladurie, auteur de « L’histoire du climat depuis l’an mil ».
Dans ce cas de figure, le présent n’est pas considéré comme le mètre étalon. Au contraire, c’est la longue durée qui est privilégiée. En effet, elle permet d’être attentifs aux process et aux interactions dans le temps. De fait, les changements s’opèrent lentement et de manière imperceptible. Il en est ainsi de la géologie, de l’astronomie ou de la biologie évolutionnaire (évolution des espèces à travers les âges)… Pour autant, il est très intéressant aussi d’identifier ce qui ne change pas (les invariants).
A titre anecdotique, Google a développé le Google Ngrams Viewer. Il s’agit d’une application qui permet de tracer l’historique de l’usage d’un mot depuis l’année 1500 à ce jour. Pour ce faire, elle s’appuie sur une analyse de tous les livres numérisés par Google Books !
L’approche « Long Data », c’est aussi ce qui fait dire à Samuel Arbesman que nous n’avons pas besoin de plus d’informations, mais de plus de sens.
Le Small Data, des données compréhensibles par l’homme
Rufus Pollock, économiste et fondateur de l’Open Knowledge Foundation, considère quant à lui que le « Big Data » est une fausse priorité.
« Les discussions à propos du Big Data passent à côté d’une notion plus importante. La réelle opportunité n’est pas le Big Data, mais le Small Data. Non pas le grand cercle de données centralisé, mais les données éparses. »
Comprendre les enjeux des Small Data pour les entreprises
Pourquoi ? Parce que le « Small Data » (ou micros données) est mieux adapté à la compréhension des hommes. Il nécessite moins de moyens matériels et techniques sophistiqués et coûteux. Il connecte les gens avec des idées qui donnent du sens à leur vie et qui sont opportunes. Il utilise des bases de données limitées ou des sources locales. De plus, les résultats, présentés sous une forme visuelle, sont accessibles et compréhensibles. Cela favorise le lancement d’actions au quotidien en fournissant une aide à la décision.
Enfin, les données accessibles via une architecture centralisée renvoient trop souvent à l’hégémonie ou au monopole d’une organisation. Au contraire, la tendance va dans le sens de l’ouverture, du partage, de la collaboration et de l’intelligence collective. C’est pourquoi les données doivent être accessibles via une architecture distribuée.
Complétons avec le « Slow Data »
Le mouvement du Slow a vu le jour avec le Slow Food en contestation du Fast Food, synonyme de la mal bouffe. Aujourd’hui, il s’étend également aux données. Il concerne les informations qui nous inciteront à modifier nos comportements, à vouloir changer le monde et à mieux collaborer ensemble. Ce serait mieux que de vouloir consommer et produire toujours davantage.
Il se caractérise par les 3 S que sont le Small, le Slow et le Sure en opposition aux 3 V du « Big Data ». Ainsi, il nous interpelle sur le fait que disposer de plus de technologie n’est pas une garantie pour mieux appréhender et résoudre les problèmes. En ce sens, il a un point commun avec la Phase d’Empathie de la démarche Design Thinking. En effet, elle met en avant l’humain pour la résolution des problèmes.
En conclusion
On peut affirmer qu’en matière de data, la technologie facilite l’acquisition, le traitement et l’analyse des données (data mining). Elle permet même grâce à la data visualisation de convertir les sources de données brutes traitées en graphique compréhensibles pour tous. Cependant, elle pose le problème de la qualité des données puisque celles-ci sont périssables contrairement à l’approche du Smart Data. Elle ne remplace pas non plus la réflexion et la prise de décision des chercheurs et des analystes. Elle permet aussi d’élargir les débats et de renforcer les échanges entre les laboratoires et instituts de recherche sur un mode collaboratif. Cela est très favorable à une meilleure compréhension des comportements et des usages des utilisateurs dans des domaines extrêmement variés. L’évolution et l’enrichissement des sciences humaines et sociales y retrouvent également leur compte.