Notes
-
[1]
Source : Insee.
1 Généralement traduit en français par « données », héritier du latin signifiant « chose donnée », le mot désigne les informations recueillies sur un sujet et stockées électroniquement, ce qui facilite leur conservation et leur transmission.
2 Malgré leur nom, certaines sont tout sauf données. Comme le dit Jensen cité par Becker (1952) : « C’est un malheureux hasard de l’histoire que le mot plutôt que soit utilisé en science. La science ne traite pas de ‘ce qui a été donné’ par la nature au scientifique mais de ‘ce qui a été pris’ ou sélectionné de la nature par le scientifique, en accord avec ses objectifs ».
3 À ce titre, mesurer n’est pas la même chose que quantifier. Mesurer permet de déterminer directement la valeur, comme un thermomètre affiche la température par exemple. À l’inverse, la quantification « exprime et fait exister sous une forme numérique ce qui, auparavant, était exprimé par des mots et non par des nombres » (Desrosières, 2014, p. 38). Par exemple, l’indice des prix à la consommation « est basé sur l’observation d’un panier fixe de biens et services, actualisé chaque année. Chaque produit est pondéré, dans l’indice global, proportionnellement à son poids dans la dépense de consommation des ménages [1] ». Cependant, cela ne va pas sans soulever de nombreuses questions : quels biens choisir ? consommés par qui ? comment choisir les pondérations ? Ouvriers et cadres ne consomment sans doute pas les mêmes biens et dans les mêmes quantités.
4 C’est pourquoi, à l’état brut, les données ne sont pas compréhensibles. Elles doivent être interprétées, contextualisées et analysées pour faire sens. Entre la collecte des données d’une part et leur traitement d’autre part, « entre ces deux mondes, se dresse la ‘banque de données’, qui fonctionne comme un sas de passage de l’un à l’autre » (Desrosières, 2001).
Data et big data, de la rareté à l’abondance
5 À titre d’exemple en 2011, 1,8 zetabytes, c’est-à-dire 1 800 milliards de gigabytes, de données étaient générés. En cinq ans, le volume de données produites a été multiplié par deux et ce nombre continue de doubler tous les deux ans depuis lors (Chen, Mao, Liu, 2014). La croissance du volume de données produites a été permise par les progrès des systèmes de stockage, par le développement de méthodes de traitement des données (Tréguier, 2014) comme le mais également par l’usage grandissant des technologies de l’information et de la communication qui génère des quantités importantes de données. Le big data, littéralement « données massives », se caractérise non seulement par un volume considérablement accru de données collectées mais également par la création continue de contenus très divers. De nouvelles problématiques émergent dans l’analyse des données de big data afin de traiter ces différences.
6 Traditionnellement, les données ont un coût de collecte élevé que leur utilité justifie : c’est parce qu’elles répondent à un besoin qu’elles sont recueilles, malgré les coûts induits. À l’inverse, le big data se caractérise par une production massive et continue de données pour un coût de collecte moindre. La valeur du big data existe non pas avant la collecte, mais est créée par l’exploitation des données elles-mêmes. Prenons l’exemple du recensement de la population pour illustrer les différences entre et big data. Actuellement et pour des raisons de coût et de faisabilité, le recensement de la population française est effectué par échantillonnage. Seuls 8 % des habitants des communes de plus 100 000 habitants sont sondés tous les cinq ans (Miller, 2010). À l’inverse, les techniques du big data, comme l’utilisation des données d’émissions et de réceptions d’appels téléphoniques dans le cas du recensement, ouvrent la possibilité d’un recensement en continu, en temps réel et plus exhaustif que les méthodes actuelles. Toutefois, l’accès aux données des opérateurs téléphoniques par un tiers demeure limité par leur politique de confidentialité et notamment les noms et numéros de téléphone ne sont jamais transmis (Blondel et al., 2015).
7 Le problème ne réside donc plus tant dans la disponibilité des données que dans leur exploitation, qui est devenue un enjeu important pour l’industrie et les gouvernements ainsi qu’une préoccupation citoyenne grandissante. Jim Grey (2014) parle d’un « quatrième paradigme de la science » qui fait la part belle à l’empirisme. Alors qu’auparavant, les données étaient utilisées pour confirmer ou infirmer une théorie préexistante, le renverse le processus en donnant le primat aux données. À ce titre, le qui permet à un ordinateur un apprentissage automatisé à partir de l’analyse d’échantillons, ne teste pas une hypothèse mais la génère à partir de données historiques. Les applications du machine learning sont nombreuses et vont par exemple du développement de voitures sans conducteur à la gestion des pourriels en passant par la suggestion personnalisée d’articles sur les sites de commerce en ligne. Ce nouvel empirisme considère que les données parlent d’elles-mêmes, sans avoir besoin qu’une théorie préétablie ne les valide (Rieder, 2016).
Ouvrir les données
8 Le est bien souvent la propriété de l’organisation qui les collecte et les modalités de leur traitement demeurent une boîte noire. C’est dans ce contexte qu’est né l’open data ou « données ouvertes », un mouvement pour l’utilisation, la redistribution et le partage gratuits des données. Juridiquement, les licences d’open data autorisent l’utilisation des données sous certaines conditions, variables selon les licences, comme l’obligation de citer la source primaire, l’interdiction d’usage à des fins commerciales, etc.
9 La législation sur l’ouverture des données publiques trouve son origine dans la Déclaration des Droits de l’Homme et du citoyen, où est affirmé le droit de chacun à demander compte à tout agent public de son administration. Si, en France, depuis la loi n°78-753 de 1978, tout citoyen pouvait demander à l’administration l’accès aux informations produites dans le cadre d’une mission de service public, celle-ci n’était pas tenue de les mettre automatiquement à disposition. Depuis la loi pour une République numérique de 2016, les administrations publiques ont pour obligation de mettre par défaut les données publiques en ligne. L’État n’ayant pas le pouvoir de contraindre les entreprises à ouvrir leurs données, seuls des recommandations et des encouragements ont été formulés. Les politiques d’ concernent donc généralement les données produites par l’État central, les collectivités et certaines entreprises publiques.
10 L’ouverture des données présente des enjeux techniques et financiers importants. Avant d’être mises en ligne, les données doivent être retravaillées pour être lisibles par tous, sans qu’il soit nécessaire de recueillir par ailleurs des informations sur leur contexte de production. Leur format doit leur permettre d’être lues par tous les utilisateurs. Enfin, la préservation de l’anonymat ne peut être garantie qu’au prix de l’agrégation des données et de la réduction des volumes mis en ligne (Goëta, 2015). Toutes ces opérations sont coûteuses en temps, en moyens financiers et en expertise technique, alors même que les organisations qui ouvrent leurs données n’y trouvent, par définition, aucun bénéfice financier si bien que le reste encore rare.
Bibliographie
Bibliographie
- Becker H. (1952), « Science, culture and society », (19), 273-287.
- Blondel V.D., Decuyper A., et Krings G. (2015), « A Survey of Results on Mobile Phone Datasets Analysis », EPJ Data Science 4(10): 1–57.
- Chen M., Mao S., Liu Y., (2014), « Big Data: A Survey », Mobile Networks and Applications 19, no. 2, 171–209.
- Davenport T.H., (2014), « How strategists use ‘big data’ to support internal business decisions, discovery and production », Strategy & Leadership, Vol. 42/4, 45-50.
- Desrosières A. (2001), « Entre réalisme métrologique et conventions d’équivalence : les ambiguïtés de la sociologie quantitative », Genèses, (43/2), 112-127.
- Desrosières A. (2014), Paris, La Découverte, coll. « Sciences humaines », 256 p.
- Goëta S. (2015), « Un air de famille : les trajectoires parallèles de l’ et du big data », Informations sociales, 191(5).
- Grey J. « A transformed scientific method », in Hey T., Tansley S. Tolle K. (2009), The Fourth Paradigm: Data-Intensive Scientific Discovery. Redmond: Microsoft Research, pp. xvii–xxxi.
- Kitchin R. (2014), « Big Data, new epistemologies and paradigm shifts », Big Data & Society, 1(1).
- Miller H.J. (2010), « The data avalanche is here. Shouldn’t we be digging? », Journal of Regional Science, 50(1): 181–201.
- Rieder B. (2016), « Big data and the paradox of diversity », Digital Culture & Society, 2(2), 39-54.
Notes
-
[1]
Source : Insee.