Notes
-
[1]
Pionnier de la statistique appliquée aux sciences sociales (1822-1911).
-
[2]
Portés par des informaticiens, des initiatives comme Culturomics, qui avait pour ambition de créer une « science de culture » sur la base d’une analyse quantitative de livres numérisés, ou le projet de Social Physics de Alex Pentland (2014) en sont de bons exemples.
-
[3]
Littéralement « fouille de données », une méthode d’exploration des données quantitatives.
-
[4]
La réduction de dimensionnalité consiste à résumer un jeu de données en créant des variables synthétiques, par exemple passer d’une vingtaine de variables à deux ou trois, à l’aide de méthodes statistiques.
Introduction
1 Sir Francis Galton [1] aurait certainement été surpris, et avec lui nombre de ses collègues statisticiens. Mais au début des années 2010, c’est bien leur profession que la venait de distinguer, en qualifiant en couverture leur travail de « sexiest job of the 21st century ». À proprement parler, il ne s’agissait pas exactement des statisticiens, mais plutôt d’une espèce cousine apparue récemment sur la scène publique : les « data scientists ».
2 Souvent décrits comme disposant d’une part d’une compétence en statistique mathématique, et de l’autre d’un savoir-faire en informatique appliquée (auxquels on rajoute parfois des « connaissances métier », savoirs sur l’objet étudié), les data scientists semblent en effet parfaitement équipés pour tirer profit de la révolution numérique initiée voilà près de trois décennies. L’abondance de données liées à la numérisation croissante du quotidien et la croyance dans leur importante valeur ont poussé de très nombreuses organisations à embaucher des personnes sachant les traiter. Parallèlement, le développement des techniques d’intelligence artificielle a offert de nouveaux outils pour analyser ces volumes jusque-là rarement connus pour tenter d’en tirer profit. De l’État aux entreprises en passant par la recherche scientifique, rares sont les secteurs qui n’ont pas été affectés par cette réorganisation.
3 Dans ces débats, les sciences sociales ont eu une position assez ambivalente. Suivant d’autres disciplines qui ont interrogé la nouveauté ou la réelle scientificité de cette pratique, sociologues, politistes ou encore historiens ont émis des critiques à l’encontre de ce nouvel arrivant. Elles étaient d’autant plus fortes que les ont parfois choisi comme terrain d’enquête des questions de société, province jusque-là réservée des chercheurs en sciences sociales [2]. Revenant sur l’histoire mouvementée des sciences sociales avec cette pratique, l’article montre que ces dernières ont fait, toutes ces années, de la data science sans le savoir. Ainsi, les chercheurs en sciences sociales se retrouvent (tout) contre celle-ci, à la fois proches et rivaux. Il montre aussi que le mouvement plus général de quantification du social dans lequel s’inscrit la data science est porteur de changements potentiellement importants pour ces disciplines.
Le retour d’une vieille idée
4 Si le terme de data science est récent, il l’est probablement moins qu’une généalogie hâtive pourrait le laisser croire. Dès les années 1960, l’informaticien Peter Naur évoquait une « datalogy », « science de la nature et de l’usage des données » (Naur, 1966, p. 485). Au moment de la première vague d’informatisation des sociétés, son objectif est de développer une discipline susceptible de saisir les possibilités offertes par l’informatique naissante pour explorer la société. Le programme lancé dans les années suivantes à l’université de Copenhague, témoigne de cet intérêt : quoiqu’inscrit dans la faculté de mathématiques, son champ d’application est plus vaste, puisque « un tiers des étudiants combinaient l’informatique avec un sujet de sciences naturelles (le plus souvent des mathématiques), un tiers avec des sujets venant des humanités ou des sciences sociales, et un tiers avec des questionnements issus de la business school de Copenhague » (Sveinsdottir et Frøkjær, 1988, p. 455).
5 Si son histoire doit encore être écrite, il semble néanmoins que le terme de data science arrive plus tardivement. C’est au cours des années 1990 que les usages se multiplient. Le statisticien Jeff Wu interroge : « Statistics = Data science ? » (Wu, 1998). La question est provocatrice, car il donne par ailleurs une définition très appliquée de cette nouvelle discipline qu’il appelle de ses vœux. Quelques années plus tard, William Cleveland, lui aussi statisticien, insiste sur le caractère « technique » ou appliqué de cette data science qu’il souhaite voir se développer (Cleveland, 2014).
6 Initialement définie comme l’analyse de données quantitatives via des approches inductives (d’autres usages ont étendu son spectre depuis pour intégrer des approches économétriques), la data science ressemblait fortement à certaines pratiques bien connues des chercheurs en sciences sociales. Non sans surprise, ces derniers ont découvert que, tel M. Jourdain dans le Bourgeois gentilhomme de Molière, ils pratiquaient la data science depuis des années sans le savoir. C’est clairement le cas pour tous ceux qui, à un moment de leur travail, recourent au data mining [3] (un terme qu’on retrouve dans les cursus de data science) pour tenter de saisir des relations alors inconnues entre variables.
7 Le lien est évident dans certains cas. Ainsi, comme on l’enseigne souvent en data science, l’analyse géométrique des données développée autour de Jean-Paul Benzécri à partir des années 1960 part du principe que le modèle ne peut être postulé ex ante, mais qu’il doit toujours être découvert au cours de l’analyse. La technique que Benzécri proposait, une méthode de réduction de dimensionnalité [4] qui saisit les corrélations entre de multiples variables et les projette dans un espace à deux dimensions (ou plus), mettait en œuvre ce leitmotiv scientifique selon lequel « le modèle, c’est les données ». De façon significative, l’ACP (Analyse en Composantes Principales) et l’ACM (Analyse des Correspondances Multiples), deux techniques classiques de cette approche, sont enseignées dans les premiers cours de data science, tout comme elles sont au cœur de plusieurs travaux sociologiques (Lebaron, 2009). Plus généralement, les approches inductives font de longue date partie de la panoplie des chercheurs en sciences sociales. L’analyse exploratoire de données [exploratory data analysis], promue par plusieurs statisticiens à la suite de John Tukey dans les années 1970, a reçu un écho positif dans plusieurs secteurs des sciences sociales. Des sciences sociales quantitatives, les ont emprunté plus que les méthodes, elles ont aussi importé le raisonnement inductif qu’elles mettent en avant.
Une « science des données » est-elle possible ?
8 Comme on pouvait s’y attendre, l’entrée tonitruante des data sciences sur la scène professionnelle et médiatique ne s’est pas faite sans critiques. Pionniers des techniques mises en œuvre par les data scientists, les statisticiens ont fait entendre par-delà les frontières disciplinaires leurs controverses longtemps évoquées en interne. L’intérêt renouvelé pour l’intelligence artificielle, largement promu par les premiers, a remis au goût du jour des débats anciens entre tenants d’une approche historique fondée sur la démonstration et l’explicitation d’hypothèses, et les défenseurs d’une approche plus inductive et expérimentale. Ces deux cultures s’opposaient de longue date (Breiman, 2001), mais les débats se sont retrouvés sur la place publique.
9 De même, historiens et philosophes des sciences se sont interrogés sur cet étonnant label (voir par exemple : Leonelli, 2016). Qu’est-ce, en effet, que cette « data science » ? S’il s’agit d’une science avec des données, alors voilà longtemps que toutes les disciplines empiriques, de la biologie à la sociologie en passant par une très grande partie de la physique, fondent leur travail sur la consultation de données. Une hypothèse plus charitable serait qu’il s’agit d’une science des données, le data scientist étant celui qui, du fait de ses compétences propres en informatique et en statistique, est capable d’interroger et de « faire parler les données », et ce quelles qu’elles soient. Mais peut-on vraiment produire un savoir sans connaissance avancée du domaine, des données disponibles et de leurs biais propres, des problématiques qui se posent ou qui ont été écartées ? Si on pense que la connaissance de l’objet d’étude reste centrale pour produire des savoirs solides, la devient la maîtrise d’outils (de collecte, de traitement). Compétence méthodologique appréciable, elle n’en forme plus pour autant une science, du moins dans le sens dans lequel on l’entend généralement, mais une technique.
Mais où vont les classes d’antan ?
10 À trop se préoccuper des labels, on risquerait toutefois de ne pas saisir les transformations en cours. D’abord parce que derrière un nom, quel qu’il soit, la pratique se diffuse. Un véritable marché du travail s’est créé ces dernières années, dans lequel les data scientists sont recherchés. Les entreprises ouvrent des postes, restructurent leur activité autour de données nouvelles ou inexploitées. Avec l’arrivée de dans les organisations (entreprises, secteur public, mais aussi dans les médias avec les data journalistes), une nouvelle forme d’expertise s’impose aussi, où la capacité technique à utiliser des bases de données devient une manière de légitimer une décision. À travers la multiplication des postes et la réorganisation des services et des cursus, l’expansion de l’emprise de la data science poursuit un phénomène de quantification du monde initié voilà plusieurs décennies, et qui identifie l’objectivité au chiffre (Porter, 1996).
11 Elle participe aussi de transformations plus profondes. Les data scientists actuels sont en effet les acteurs les plus visibles de ce qui pourrait être un nouveau régime de connaissance du monde. La data science actuelle tire en effet parti de deux phénomènes distincts : l’abondance de données numériques (ce qu’on appelle parfois, un peu vite, les – Ollion et Boelaert, 2015) et leur traitement via des méthodes d’apprentissage automatique (intelligence artificielle). L’usage conjoint de ces sources et de ces traitements, doublé de l’absence de formation de la plupart des data scientists en sciences sociales, pourraient favoriser une lecture largement a-sociale des phénomènes de société.
12 Du côté des sources, la collecte de données massives fait qu’on dispose désormais de très nombreuses informations sur les pratiques. Cette abondance de traces permet, comme l’a bien souligné Dominique Cardon (2015), une individualisation des analyses. Par ailleurs, plutôt que de recourir à des variables intermédiaires classiques comme l’âge, le sexe ou un indicateur de position sociale pour cibler leurs publics, les régies publicitaires se concentrent de plus en plus sur les pratiques. À l’aide de cookies et autres trackers qui sont installés sur de nombreux sites, Google peut ainsi suivre à la trace une utilisatrice au gré de ses déplacements sur internet, sans forcément savoir qui elle est. Sans forcément que cela l’intéresse d’ailleurs : pour savoir quelles publicités afficher à son passage, les sites consultés s’avèrent finalement aussi intéressants que son portrait socio-démographique. Cette logique est enfin redoublée par l’usage des techniques d’apprentissage automatique [machine learning], largement déployées depuis quelques années pour traiter des données massives. Orientées vers la prédiction plutôt que vers l’interprétation, vers la réponse à la question « va-t-elle acheter / cliquer » plutôt que « pourquoi achète / clique-t-elle », ces méthodes mettent à distance la question des causes de l’action (« pourquoi ? ») au profit d’une interrogation sur sa réalisation (« est-ce que ? »). Cela favorise, un peu plus encore, l’occultation des propriétés socio-démographiques.
13 L’enjeu ne concerne pas que ces secteurs. Dans divers travaux, l’historien de la statistique Alain Desrosières a bien analysé ce que la diffusion massive de modes de perception du monde social comme les « catégories socio-professionnelles » de l’INSEE devait à leur usage revendiqué par différents acteurs (voir Desrosières et Thévenot, 2002). On peut même supposer que le fait que cette taxinomie soit devenue une modalité courante pour décrire la société française de l’après-guerre est directement lié à ses multiples usages dans des secteurs aussi divers que la statistique publique, le marketing, ou les politiques publiques. Que, en d’autres termes, le recours diversifié et répété de ces catégories en a fait un outil partagé de description de la société française, et ce bien au-delà de la statistique publique.
14 Dès lors, que se passera-t-il demain si plusieurs acteurs cessent d’utiliser ces outils pour décrire les populations qui les occupent ? Une hypothèse plausible est que la description de la société selon ces lignes de partages va s’estomper. L’argument vaut au-delà des PCS, pour toutes les catégories canoniquement utilisées, et que le nouveau régime de quantification pourrait pousser de côté. La microphysique du social qu’elle permet pourrait être une microphysique sans le social.
Bibliographie
Bibliographie
- Breiman L. (2001), « Statistical Modeling. The Two Cultures », Statistical Science, vol. 16(3), pp. 199-231.
- Cardon D. (2015), À , Le Seuil, Paris.
- Cleveland W. (2014), « Data science: An action plan for expanding the technical areas of the field of statistics », Statistical Analysis and Data Mining, vol. 7(6), pp. 414-417.
- Desrosières A. et L. Thévenot (2002) [1988], Les catégories socio-professionnelles, La Découverte, Paris.
- Harvard Business Review (2012), « Data Scientist. The Sexiest Job of the 21st Century », Octobre 2012.
- Lebaron F. (2009), « How Bourdieu quantified Bourdieu », in K. Robson et C. Sanders, Quantifying Theory: Pierre Bourdieu, Springer, Dordrecht.
- Leonelli S. (2016), Data-centric biology. A Philosophical Study, University of Chicago Press, Chicago.
- Naur P. (1966), « The Science of Datalogy. Letter to the editor », Communications of the ACM.
- Ollion E. et J. Boelaert (2015), « Au-delà des big data. Les sciences sociales et la multiplication des données numériques », Sociologie, vol. 3(6), pp. 295-310.
- Pentland A. (2014), Social Physics. How Good Ideas Spread – The Lessons From A New Science, Penguin, New York.
- Porter T. (1996), Trust in numbers, Princeton University Press, Princeton.
- Sveinsdottir E. et E. Frøkjær (1988), « Datalogy. The Copenhagen Tradition of computer science », BIT Numerical Mathematics.
- Wu J. (1998), « Statistics = Data Science ? », Leçon inaugurale au département de statistique de l’université du Michigan.
Notes
-
[1]
Pionnier de la statistique appliquée aux sciences sociales (1822-1911).
-
[2]
Portés par des informaticiens, des initiatives comme Culturomics, qui avait pour ambition de créer une « science de culture » sur la base d’une analyse quantitative de livres numérisés, ou le projet de Social Physics de Alex Pentland (2014) en sont de bons exemples.
-
[3]
Littéralement « fouille de données », une méthode d’exploration des données quantitatives.
-
[4]
La réduction de dimensionnalité consiste à résumer un jeu de données en créant des variables synthétiques, par exemple passer d’une vingtaine de variables à deux ou trois, à l’aide de méthodes statistiques.