Notes
-
[*]
Cet article s’inscrit dans le cadre du projet INNOX, Innovation dans l’expertise. Modélisation et simulation comme instrument de gouvernement (ANR-13-SOIN-0005).
-
[1]
La page professionnelle de David Marsan : https://www.isterre.fr/annuaire/pages-web-du-personnel/david-marsan/?id_auteur=131 (consulté le 25 octobre 2017).
-
[2]
Nous avons échangé à plusieurs reprises avec David Marsan entre février 2015 et mars 2017. Les citations de David Marsan sont tirées du quatrième entretien que nous avons réalisé avec lui à Chambéry en avril 2016.
-
[3]
Nous avons rendu publique l’analyse de Marsan dans un article publié sur le site de la Vie des idées (Benbouzid, 2016), relayée par Mediapart (Hourdeaux, 2016).
-
[4]
La stratégie de lancement de Predpol repose en grande partie sur ce slogan accrocheur More Than Hotspot Tool. À partir de ce slogan publicitaire, les responsables marketing de Predpol tentent de séduire les dirigeants de la police en prétendant faire mieux que le « hotspots policing », la manière de labéliser la police proactive depuis les années 1990. Sur le site de la start-up (predpol.com), les expérimentations du logiciel sont systématiquement associées à une réduction du crime autour de 20 %, du moins une réduction toujours plus importante que dans les secteurs où le logiciel n’est pas utilisé.
-
[5]
Marsan et son collaborateur Lengliné publient en 2008 dans Science un article remarqué en sismologie statistique (Marsan et Lengliné, 2008). C’est cet article que les mathématiciens de Predpol citent dans leur article (ibid., 2011). La méthode statistique développée par Marsan est transposée à l’identique, hormis les éléments de traduction essentiels pour adapter l’algorithme aux contraintes d’opérationnalisation.
-
[6]
Pour une histoire des origines controversées des réseaux de neurones, consulter Olazaran (1996).
-
[7]
L’opacité des algorithmes est devenue un lieu commun : non seulement le code source des machines est la plupart du temps protégé par le secret commercial, mais aussi il décrit un processus d’apprentissage artificiel, si complexe et consommateur de variables que les résultats apparaissent difficilement interprétables par les spécialistes eux-mêmes. Qu’elle soit volontaire ou non, l’opacité apparaît comme le problème central dans le débat public actuel et ce dans tous les pays qui ont mis le problème des algorithmes à l’agenda politique (Mittelstadt et al., 2016).
-
[8]
On peut consulter la note critique complète de Marsan à partir de l’article publié sur le site du journal Mediapart, « Police prédictive : deux chercheurs démontent l’algorithme », 13 septembre 2016.
-
[9]
« Thanks for your email and sending along the analysis. I have found your work on nonparametric point processes quite interesting and influential! We have certainly seen the branching ratio vary quite a lot from city to city and crime type to crime type (from 0 to .5). As you point out, it is important to pick such parameters using cross validation in which case it is certainly possible that a simpler model may be favored. It also may be the case that the nonparametric model you are using is over-parametrized (it looks like it has over 30 parameters), so it may be over-fitting the training data. You might need more regularization, or you might want to use a semi-parametric model (you mention using an exponential smoothing kernel, which is essentially a parametric Hawkes process without the background rate). Another thing you bring up is the non-stationarity of the process. I think this is important and something we tried to estimate in the JASA paper (where the background rate \mu depends on time). Disentangling endogenous contagion from exogenous fluctuations in the intensity is a somewhat open problem, though I have done a little work in this area. The non-stationarity of the background rate is one big difference between crime and earthquakes, and you often try to factor in seasonality and other explicit exogenous predictors. » (Courriel de Mohler à Marsan, 3 septembre 2015).
-
[10]
Comme le souligne Daston (2014, p. 32), si « la justesse concerne la manière dont les nombres ou des grandeurs géométriques correspondent à une partie du monde et suppose qu’un modèle mathématique puisse être ancré dans la mesure, […] la précision concerne la clarté, la distinction et l’intelligibilité des concepts, et, par elle-même, ne dit rien sur la correspondance ou non des notions avec le monde ».
-
[11]
« Even though great progress has been made in the last decade, there are still many open questions, i.e., starting with the physical triggering of earthquakes (aftershocks), effects of uncertainties in the catalog on the results of declustering, or the effect of censored data (selection in time, space and magnitude range) on the outcome. In summary, care should be taken when interpreting results of declustering or results that depend on a declustered catalog, because these results cannot reflect the exact nature of foreshocks, mainshocks and aftershocks; indeed the exact nature of these events may not exist at all! » (Thomas van Stiphout et al., 2012)
-
[12]
Même si, pour les sauveteurs engagés dans les ruines à la recherche de survivants, ces répliques sont une menace, la recherche de Marsan ne s’inscrit pas dans l’objectif d’améliorer l’efficacité de leur prédiction.
-
[13]
« If honestly done, there are no bad prediction in crime control » (entretien août 2013).
-
[14]
L’évaluation mise en place par Predpol apparaît davantage dans la continuité du plan marketing de la start-up plutôt que dans une logique d’« objectivité de régulation » (Cambrosio et al., 2006) comme en sismologie avec le programme « Collaboratory for the Study of Earthquake Predictability (CSPEP) », http://www.cseptesting.org/ (consulté le 25 octobre 2017).
-
[15]
Pour une analyse stimulante de la difficulté de prédire les séismes en comparaison à d’autres phénomènes, on peut consulter l’ouvrage de Nate Silver (Silver, 2015).
-
[16]
Robbins montre que le succès actuel des mouvements évangélistes tient à ce que la période contemporaine suscite de l’incertitude quant au futur proche pour lequel il n’est plus possible de ne rien prédire, conduisant les individus à se concentrer sur le présent de leurs actes et à se projeter dans un avenir mystique lointain. On peut faire un parallèle entre les pentecôtistes observés par Robbins et les Chief Evangelist Officers qui travaillent à accélérer les ventes des technologies prédictives.
1La prédiction policière est un domaine de recherche dont l’objectif principal est de développer des machines à prédire les crimes, en tirant profit des algorithmes du machine learning et de l’accessibilité croissante à une diversité de données (Perry, 2013). Aux États-Unis, la police prédictive s’inscrit dans un projet ancien de réforme de la police par la recherche (Walker, 2004) qui vise à créer une police de proaction, plus préventive qu’urgentiste, qui intervient de son propre chef, sans être mobilisée par l’appel des citoyens (Jobard et Maillard, 2015). Cette réforme est en grande partie portée depuis les années 1970 par des chercheurs qui critiquent une police se produisant essentiellement dans des contextes de crise et des circonstances dramatiques, totalement détachée des préoccupations de prévention de la délinquance (Weisburd et Braga, 2006). Dans ce contexte, depuis une quarantaine d’années, une part importante des budgets de recherche sur la police est consacrée au développement d’expérimentations tactiques capables de précéder et d’anticiper la commission de délits, au lieu de simplement y réagir. En 2012, lorsque l’entreprise Predpol – la start-up la plus célèbre en matière de police prédictive – commercialise une plateforme d’analyse prédictive, téléchargeable sur une simple application, prenant la forme d’un tableau de bord diffusant en temps réel les risques d’occurrence des crimes avec une précision de l’ordre de 200 mètres, le rêve des réformateurs de la police américaine des années 1970 semble se concrétiser dans une machine.
2Avec le déploiement de ce type de plateforme analytique dans l’action publique, une nouvelle forme de quantification pénètre progressivement les administrations. La statistique publique classique, fondée sur la loi des grands nombres et les notions de normes et de moyennes qui lui sont associées, est concurrencée par ces pratiques algorithmiques dont l’objectif principal est de produire de manière automatisée des classes, des clusters ou des patterns. La statistique d’apprentissage s’affranchit ainsi d’un système de catégorisation figée : « Aux variables stables, pérennes et structurantes, qui fixaient les objets statistiques dans des catégories, les algorithmes numériques préfèrent capturer des événements qu’ils enregistrent à la volée pour les comparer à d’autres événements, sans avoir à procéder à une catégorisation. Plutôt que des variables lourdes, ils cherchent à mesurer des signaux, des conduites, des actions, des performances » (Cardon, 2015, p. 49). Dans ce contexte où les repères traditionnels de la statistique standard sont bouleversés, nombreuses ont été, ces dernières années, les initiatives pour faire des « algorithmes » un objet spécifique de la recherche en sciences sociales (Dourish, 2016). Les algorithmes apparaissent alors comme des dispositifs puissants, en expansion dans tous les secteurs de la société, dotés d’un pouvoir subtil, discret et dissimulé sur les individus (Beer, 2009). Dénonçant leur caractère intrusif, discriminatoire et déloyal (O’Neil, 2016), chercheurs et activistes se sont engagés en faveur d’une politique des algorithmes (Crawford, 2016) – accountability (Diakopoulos, 2014), transparence (Zarsky, 2016) et audit (Sandvig et al., 2014) sont devenus les maîtres mots du débat public sur les algorithmes.
3À ce drame algorithmique (Ziewitz, 2016), les analyses foucaldiennes de Berns et Rouvroy ont ajouté une dénonciation des transformations profondes permises par les prédictions du machine learning dans l’exercice du pouvoir : alors que la normativité de la loi, par sa forme discursive et explicite, nous laisse la possibilité d’obéir ou de désobéir et nous donne le droit à un procès équitable qui prolonge la possibilité du dialogue, la tyrannie du réel imposée par le machine learning neutralise la critique en produisant des dispositifs normatifs fondés sur la stricte description de l’activité des individus (Rouvroy et Berns, 2013). Autrement dit, par le processus d’apprentissage statistique, la « norme sociale émerge du réel lui-même » (Rouvroy et Berns, 2013). Ce qui caractérise cette gouvernementalité algorithmique, c’est sa capacité à rendre schizophrénique toute forme de résistance : la discrimination, l’exclusion, la distribution déloyale de la visibilité ne sont pas directement produites par les classements des algorithmes, mais par la réalité sociale à partir de laquelle les algorithmes prennent forme. La quantification n’est plus cette opération d’institution de la réalité et de transformation du monde que le sociologue se donnait pour tâche de montrer (Anderson, 1990 ; Desrosières, 2002 ; Hacking, 1999 ; Porter, 1996), mais au contraire, une opération de conservation de cette réalité et des injustices flagrantes qui lui sont associées. Dans ce contexte, le sens critique des acteurs est renvoyé aux effets de renforcement de la réalité que produisent les algorithmes, c’est-à-dire à la phase retour du calcul et non pas sur les modalités du calcul lui-même au sujet desquelles les acteurs seraient, selon Berns et Rouvroy, dépourvus de tout sens critique.
4À s’en tenir à l’analyse de Berns et Rouvroy, ni la sociologie pragmatiste de la critique sociale (Boltanski et Thévenot, 1991) ni une sociologie des controverses (Latour, 1987) ne peuvent être envisagées sur ce nouveau régime calculatoire. Faut-il pour autant renoncer à l’analyse sociologique des calculs du machine learning ? Aussi pertinente soit-elle, l’analyse en termes de dépossession de la critique élaborée par Berns et Rouvroy limite les possibilités concrètes d’émancipation face aux algorithmes de gouvernement, car elle enferme les acteurs, et les sociologues eux-mêmes, dans une posture d’impuissance. Si la sociologie des sciences et des techniques veut contribuer à l’étude des prédictions algorithmiques et, dans le même temps, justifier sa pertinence et son utilité face à cet objet, elle doit construire un art de l’enquête spécifique qui permette de créer des épreuves critiques sur mesure. Cet art de l’enquête, nous l’emprunterons à Tim Ingold (Ingold, 2013). Pour connaître les algorithmes et comprendre les prédictions qui leur sont associées, il faut entrer dans un processus de correspondance avec eux, en les touchant, les manipulant, les soumettant à des opérations.
5Nous avons expérimenté cette manière d’enquêter entre juin 2013 et mars 2017 lors d’une recherche sur l’algorithme de Predpol. Les mathématiciens (Mohler et al., 2011) qui ont créé cette start-up se sont inspirés d’un algorithme mis au point par un sismologue français, David Marsan, professeur de science de la terre à l’Université de Savoie [1]. Le code source de la plateforme Predpol n’étant pas accessible pour des raisons de secret commercial, nous nous sommes directement adressés au sismologue pour essayer de comprendre les prédictions [2]. David Marsan a testé avec nous son algorithme sur les données du crime de la ville de Chicago en accès libre, celles-là mêmes que les chercheurs californiens ont utilisées dans leur publication. Si le sismologue utilise la même méthode de calcul, sur les mêmes données, il en arrive à une interprétation différente des plus circonspectes sur la capacité de l’algorithme à prédire le crime [3]. De manière inattendue, nous avons construit une situation de controverse concernant les connaissances des propriétés techniques de l’algorithme (Mackenzie, 2004). En confrontant d’un côté un physicien spécialisé en science de la terre et de l’autre des chercheurs en mathématique appliquée tournés vers le développement de machines prédictives, nous nous sommes donné l’occasion de rendre visibles les êtres qui font exister l’algorithme et de porter toute notre attention sur les associations spécifiques dont l’algorithme de Predpol se compose (Latour, 2010).
6Comment les analyses prédictives se sont-elles constituées de part et d’autre de l’Atlantique ? Comment les algorithmes prédictifs en viennent-ils à exister différemment dans un contexte et dans un autre ? Comment et pourquoi les machines prédictives peuvent-elles annoncer un crime à venir dans les laboratoires californiens, et ne plus fonctionner dans le laboratoire de Chambéry ? Répondre à ces questions revient à décrire une controverse qui permet de prendre le pli de l’algorithme (Latour, 2010). C’est cette procédure de dépliage qui nous a permis d’observer que les chercheurs qui pratiquent le machine learning ont une certaine vision morale de leur activité (Daston, 2014) que l’on peut comprendre en analysant les valeurs et les conséquences matérielles qui participent des épreuves évaluatives par lesquelles les prédictions se construisent. L’analyse des dimensions morales de la prédiction n’est pas l’étude de tel ou tel usage du machine learning, mais plutôt celle des transformations des modalités de la prédiction d’un contexte social à un autre. À l’issue de la lecture de cet article, la prédiction devrait apparaître comme un problème moral indissociablement cognitif et matériel.
Capture d’écran de la carte projetée sur le tableau de bord de la plateforme Predpol
Capture d’écran de la carte projetée sur le tableau de bord de la plateforme Predpol
Cette figure indique avec une précision de l’ordre de 200 mètres les crimes à venir.Un algorithme qui produit des clusters en ajoutant de la concentration et de la contagion, sans hypothèse a priori
7Si la start-up californienne apparaît comme une référence dans le domaine de la police prédictive, c’est grâce à son principal slogan publicitaire : More Than Hotspot Tool [4]. Depuis le début des années 1990, la cartographie urbaine des points chauds, représentant la distribution du crime sous la forme de « carte de chaleur », est le principal outil pour intervenir de manière stratégique sur les secteurs où les crimes se concentrent (Weisburd et al., 2009). Predpol ferait mieux que les cartes du crime classiques grâce à une méthode prédictive utilisée dans le domaine de la prédiction des tremblements de terre. Une similarité observée par les chercheurs de Los Angeles entre la dynamique de propagation des crimes et celle des séismes laisse alors espérer que le crime serait, enfin, fongible dans les mathématiques (Mohler et al., 2011). La méthode de calcul mobilisée s’inscrit dans le domaine des processus ponctuels stochastiques, une branche de la physique statistique. Cette approche classique pour la modélisation de la distribution d’un ensemble d’événements (considérées comme des entités ponctuelles, des points) sur un espace fini permet la description de la répartition d’événements sur un domaine de dimension arbitraire (deux dimensions d’espace et une dimension de temps pour le modèle qui concernera cet article). Ainsi, les processus ponctuels permettent d’identifier des mécanismes formels de production de ces événements dans plusieurs dimensions, en modélisant comment se répartissent les temps d’occurrence de ces événements.
8La question qui sous-tend cette opération statistique est de savoir si les événements sont distribués au hasard ou d’une façon plus régulière que ne le produit le hasard, ou bien encore s’ils forment des groupes autour de certaines localisations. Le choix du type de processus dépend des hypothèses du chercheur sur la forme du mécanisme. Les chercheurs de Predpol débutent leur recherche avec une hypothèse classique en matière d’analyse prédictive du crime : le crime ne se produit pas par hasard, il se concentre dans l’espace et se diffuse de proche en proche. La structure répétitive des événements eux-mêmes suffit à modéliser le phénomène (sans avoir recours à des variables externes) : le meilleur prédicteur d’un crime à venir est un crime passé. Nous allons revenir sur cette hypothèse, mais notons d’abord que le processus ponctuel auto-excitatif intéresse les mathématiciens de Predpol, car c’est une manière de modéliser des interactions entre des événements, en tenant compte de l’histoire des événements antérieurs – la réalisation des événements futurs (crimes ou séismes) dépend de l’histoire du processus. La formule ci-dessous est la représentation mathématique de ce processus et, partant, de l’algorithme de prédiction utilisé par Marsan et Predpol. Elle calcule une probabilité qui est, pour ainsi dire, une idéalisation de la moyenne des crimes ou des séismes sur une surface :
10Dans cette équation, la probabilité d’occurrence d’un événement, à un instant donné du processus, est une contribution à un calcul de l’intensité du risque par unité de surface et par unité de temps. Dans le langage des statisticiens, on dit que cette équation « décrit un processus inhomogène de Poisson d’intensité l (x, y, t) ». Cette intensité est un calcul de risque qui peut s’interpréter comme une densité dépendante de l’espace et du temps, obtenue par la somme des deux composantes de la formule : d’une part, la fonction m (x, y), appelée taux de fond, dépend seulement de l’espace et représente le calcul probabiliste de la concentration spatiale ; d’autre part, la fonction g (x – xi, y – yi, t – ti, Mi), appelée kernel de contagion, modélise la diffusion de séries d’événements dont le déclenchement dépend de l’événement antérieur (les événements dépendent les uns des autres) et de la magnitude. L’algorithme modélise ainsi l’intensité du risque en tout point sur une carte en additionnant ces deux composantes. Soulignons au passage la linéarité du modèle de contagion, sans laquelle le traitement (simulation, optimisation) serait très difficile et rendrait l’algorithme pratiquement inutilisable : il est fait l’hypothèse que, par exemple, la contagion g (1,2) suite à 2 événements distincts 1 et 2 est simplement la somme des contagions individuelles g1 et g2 (d’où la somme dans l’équation).
11Marsan utilise cette méthode pour modéliser la manière dont les secousses principales d’un séisme déclenchent des répliques qui, en retour, déclenchent leurs propres séquences de tremblements de terre, et ainsi de suite selon un processus de cascade stochastique [5]. Si les criminologues de Los Angeles s’intéressent à l’algorithme de Marsan, c’est parce qu’ils voient dans les recherches sismologiques une similarité de forme avec les problématisations criminologiques : de même que les séismes répliquent, les crimes se répètent. Depuis les années 1990, un champ de recherche sur la répétition des crimes s’est développé aux États-Unis et en Grande-Bretagne, après qu’une multitude d’analyses criminologiques ait convergé pour montrer que la plupart des crimes se répètent sur un petit nombre de victimes et se propagent dans l’espace de proche en proche (Pease et Tseloni, 2014). Dans le modèle dit de « crime à répétition » qui a été proposé pour rendre compte de ce mécanisme, le crime peut être vu soit comme un signal d’un risque relativement stable dans un secteur, soit comme une indication que les incidents renforcent la probabilité d’occurrence d’incidents ultérieurs. Ces deux hypothèses se retrouvent dans le calcul de l’intensité du risque présentée plus haut : le risque relativement stable dans un secteur correspond à la concentration m (x, y) et le renforcement à la contagion g (x – xi, y – yi, t – ti, Mi).
12Avec cet algorithme, Marsan cherche à montrer que la structure de déclenchement en cascade des séismes peut être modélisée de manière probabiliste sans hypothèse sur les mécanismes et sans nécessiter de tester en préalable les paramètres propres aux modèles. L’apport de l’algorithme de Marsan en sismologie se situe sur ce plan : la plupart des modèles de sismicité existants sont paramétriques, issus de connaissances empiriques. Marsan et son collaborateur Lengliné se font remarquer dans leur domaine en montrant qu’on peut s’affranchir complètement de cette paramétrisation. Les chercheurs de Predpol avancent le même argument pour justifier l’intérêt de leur recherche : les premières approches statistiques utilisées en criminologie, notamment dans le domaine de la diffusion des crimes, sont paramétriques, nécessitant une hypothèse sur la forme de la propagation des crimes. Un point de méthode doit être éclairé sur cette distinction : en quoi l’approche paramétrique se diffère-t-elle de l’approche non paramétrique ? Alors que, pour les modèles paramétriques, la forme du modèle est imposée et les paramètres optimisés, avec les modèles non paramétriques, il est estimé une taille optimale du diamètre de la fenêtre mobile circulaire qui enregistre le nombre d’événements pour chaque cellule d’une grille virtuelle projetée sur la carte (fenêtre de lissage) et le nombre de paramètres varie et augmente avec le nombre d’observations. Le modèle est construit sans hypothèse de forme a priori (c’est ce que signifie « non paramétrique »), mais dépend bel et bien de paramètres qui vont permettre au modèle de prendre la forme la plus appropriée pour expliquer les données. Pour estimer les paramètres (non paramétrique ne signifie donc pas sans paramètre), Marsan utilise l’algorithme Expectation-Maximisation, une méthode classique qui, par une procédure itérative, alterne deux étapes (calcul de l’espérance et calcul de la maximisation de la vraisemblance) de façon répétée, afin de trouver l’estimateur du modèle. Marsan fait référence à une autre méthode plus célèbre, les réseaux de neurones artificiels [6], pour nous donner à comprendre comment cette méthode non paramétrique s’inscrit dans l’esprit du machine learning (Domingos, 2017) :
« C’est un peu comme un réseau de neurones : on met des briques qui dépendent de paramètres, mais le produit final n’est pas ou très peu contraint au départ, le modèle ajuste lui-même sa forme. Pour nous, c’était surtout une manière de montrer qu’un modèle avec le moins possible d’a priori converge alors vers des lois (des formes) très proches des lois empiriques usuellement injectées d’entrée de jeu dans ces approches stochastiques (sauf pour la dépendance spatiale, qui ne fait pas consensus, et pour laquelle notre façon de faire permet de ne pas faire d’hypothèse mal contrainte au départ). La différence fondamentale avec les approches réseau de neurones est que ces derniers sont souvent utilisés comme boîte noire avec un but strictement prédictif, alors qu’on n’avait pas du tout cela en tête. On cherche plutôt à comprendre ce qu’est un “bon” kernel de contagion et comment il peut émerger naturellement de l’analyse de données. »
14Cette opposition, connue des spécialistes du machine learning (Shmueli, 2010), entre comprendre pour construire des théories et prédire pour agir sans forcément tout comprendre du phénomène est, selon Marsan, ce qui explique la différence entre son approche de la modélisation et celle des mathématiciens de Predpol. Nous allons voir maintenant quelles sont les conséquences pratiques de cette opposition sur la manière d’évaluer l’algorithme.
Prendre le pli de l’algorithme : exactitude vs précision
15Après cette simple description en surface de l’algorithme, la barrière du formalisme mathématique est dépassée et nous avons un aperçu des hypothèses (la concentration et la contagion) sur lesquelles reposent les prédictions. Passons maintenant à une sociologie des connaissances des propriétés techniques (Mackenzie, 2004) de l’algorithme de Predpol. Pour ce faire, nous allons considérer l’algorithme comme un être dont le mode d’existence dominant est celui de la technique (Latour, 2012 ; Simondon, 2012). Latour le montre bien, « l’objet technique a ceci d’opaque et, pour tout dire, d’incompréhensible, qu’on ne peut le comprendre qu’à la condition de lui ajouter les invisibles qui le font exister d’abord, puis qui l’entretiennent, le soutiennent et parfois l’ignorent et l’abandonnent » (Latour, 2010, p. 26). Dans cette perspective, on perçoit que l’opacité, qui est devenue un lieu commun dans le débat public sur les algorithmes [7], n’est pas un problème spécifique au machine learning : tous les êtres techniques, d’une manière générale, « aiment à se cacher ». Inutile d’espérer que l’algorithme de Predpol devienne transparent, qu’il soit rendu public par les développeurs afin de gagner en clarté et de mieux le maîtriser : comme tous les êtres techniques, les algorithmes sont fondamentalement opaques. Une méthode d’enquête appropriée permet néanmoins d’en prendre le pli, d’en révéler la « somptueuse opacité » (Latour, 2010).
16Pour prendre le pli de l’algorithme de Predpol, il faut savoir utiliser son langage – non pas celui du code, mais celui plus général de la technique : les détours, les zigzags astucieux, la ruse (Latour, 2012). Face à l’opacité de l’algorithme de Predpol, nous avons réagi comme un archéologue qui tombe sur un objet technique vieux de plusieurs millénaires dont le sens lui échappe : il le tourne, le retourne, le scanne, le simule et le reproduit. C’est une posture d’enquête qui n’est pas familière au sociologue : manipuler, triturer, bidouiller, hacker son objet. C’est pourquoi nous avons demandé à David Marsan de le faire à notre place et nous l’avons interrogé à plusieurs reprises. Ce dernier a testé directement l’algorithme que nous venons de présenter sur les données en accès libre de la ville de Chicago, celles-là mêmes, rappelons-le, que les chercheurs de Predpol ont utilisées dans une de leurs publications de 2014. Ainsi, nous n’avons pas seulement demandé à Marsan de nous expliquer comment fonctionnait l’algorithme, mais bien de faire tourner son algorithme sur les données criminelles et de nous livrer les résultats. D’une manière inattendue, nous avons construit une situation de controverse concernant les connaissances des propriétés techniques de l’algorithme. Rien de tel pour prendre le pli d’une machine.
17Pour décrire cette controverse, suivons les trois étapes qui structurent le travail de modélisation : la justification du choix de processus ponctuel (ici le self-exciting), ensuite la stratégie de modélisation et les techniques d’estimation du modèle qui lui sont associées (l’algorithme expectation-maximisation), et enfin, l’évaluation du modèle. Les deux premières étapes dépendent des connaissances (ou croyances) préalables de l’analyste sur la nature du problème, alors que la dernière s’appuie sur la vision morale que l’analyste a de son activité. Dans l’expérience que nous avons proposée à Marsan, le type de processus ponctuel est imposé et la stratégie de modélisation qu’il va utiliser ne diffère pas de manière significative de celle des chercheurs de Los Angeles. Marsan va donc évaluer un modèle appliqué à un phénomène sur lequel il ne connaît rien, en mobilisant un algorithme similaire à celui de Predpol (il adopte donc les mêmes hypothèses préalables que Predpol). Pourtant, des points de divergence sont apparus au moment de l’interprétation des résultats (l’évaluation du modèle). Marsan émet de nombreux doutes sur la capacité de son algorithme à faire mieux que les cartes classiques de hotspots. Dans la note qu’il a consacrée à l’analyse des données du crime de la ville de Chicago, il conclut :
« Les résultats obtenus donnent de bonnes raisons de douter de la capacité des modèles proposés à faire mieux que les simples cartes de hotspots. La contribution de la contagion (the triggering contribution) pour expliquer la survenance d’événements futurs est faible (elle ne représente que 1,7 % pour le meilleur modèle). La part de la “mémoire” dans le processus ne peut donc fournir qu’une très modeste contribution à l’efficacité du système de prédiction. Plus important encore, il est supposé que la dynamique du processus reste la même au fil du temps. La possible non-stationnarité du processus est clairement un problème, car elle limite l’utilisation des informations passées pour prédire l’avenir. En 2015, les cambriolages ne se distribuent pas (dans le temps et dans l’espace) comme en 2014. Cette non-stationnarité est probablement due à des évolutions incontrôlées de la façon dont les actes criminels sont accomplis. Elle peut être aussi due à la mise en place de nouveaux algorithmes de prédiction qui, une fois exploités par les patrouilles de police, provoqueraient des réactions chez les cambrioleurs. Contrairement à des processus naturels tels que les tremblements de terre, des analyses comme celles présentées ici pourraient donc modifier le processus observé, ce qui rend plus difficile de prévoir correctement les événements futurs
19Pour comprendre la conclusion de Marsan, rappelons que l’algorithme calcule l’intensité du risque dans l’espace et le temps en additionnant deux éléments : la part de la concentration (l’espace) et celle de la contagion (la dépendance au temps). La note de David Marsan indique que la contribution de la contagion dans la réalisation du processus existe, mais qu’elle est extrêmement faible. Elle est même négligeable. Or c’est cette dimension qui est mise en avant par les promoteurs de Predpol lorsqu’ils lancent le slogan More than hotspot. Les scientifiques créateurs de la start-up auraient-ils altéré les résultats afin de les rendre favorables à leur projet commercial ? Non, selon Marsan, les chercheurs de Predpol ont fait un travail honnête. D’ailleurs, Marsan a écrit à Mohler qui lui a répondu de la manière suivante :
« Merci pour votre e-mail et votre analyse. J’ai trouvé votre travail sur les processus ponctuels non paramétriques très intéressant et influent ! Nous avons évidemment constaté que le taux de branchement varie considérablement d’une ville à l’autre et d’un type de crime à l’autre (de 0 à 0,5). Comme vous le soulignez, il est important de choisir ces paramètres en utilisant la validation croisée, auquel cas il est probable qu’un modèle plus simple soit favorisé. Il se peut aussi que le modèle non paramétrique que vous utilisez soit en surapprentissage (il semble y avoir plus de 30 paramètres dans votre modèle), ce qui peut entraîner une adaptation excessive des données d’entraînement. Vous pourriez avoir besoin de plus de contraintes, ou vous pourriez vouloir utiliser un modèle semi-paramétrique (vous mentionnez l’utilisation d’un noyau de lissage exponentiel, qui est essentiellement un processus Hawkes paramétrique sans le taux de fond). Une autre chose que vous évoquez, c’est l’absence de stationnarité du processus. Je pense que c’est important et nous avons essayé de l’estimer dans le document de la JASA (où le taux de fond dépend du temps). Démêler l’apport de la contagion endogène et des fluctuations exogènes sur l’intensité du risque est un problème encore ouvert, même si j’ai un peu travaillé dans ce domaine. La non-stationnarité du taux de fond est une des grandes différences entre la criminalité et les tremblements de terre. En principe nous essayons de prendre en compte la saisonnalité et d’autres variables explicatives exogènes. »
21L’honnêteté des scientifiques qui ont œuvré au développement de Predpol n’est pas à mettre en question. Dans sa réponse, Mohler est conscient des nombreuses limites de l’algorithme de Predpol et se défend de la critique adressée par Marsan en lui rappelant qu’ils ont cherché à traiter le problème de la non-stationnarité en intégrant une variable temporelle u (t) au taux de fond m (x, y). L’équation de Predpol devient ainsi : . Comment Marsan réagit-il à la réponse de Mohler ? Pour répondre à cette question, il faut reprendre le cheminement de l’analyse critique de Marsan :
« Le peu que j’ai travaillé dessus – bon ça représente deux ou trois semaines de travail, ce n’est pas rien non plus – m’a permis de réaliser qu’il y avait un problème entre les données entre 2014 et 2015. J’ai jeté un œil de manière très simple pour voir comment ça se comportait, et effectivement ça ne se ressemble pas du tout. »
23Marsan nous invite alors à regarder les deux figures ci-dessous, à gauche ce sont des séismes à droite des crimes :
Graphes indiquant l’évolution de la distance moyenne entre des paires d’événements tels qu’ils apparaissent dans les notes de Marsan
Graphes indiquant l’évolution de la distance moyenne entre des paires d’événements tels qu’ils apparaissent dans les notes de Marsan
Ces graphes illustrent « l’effet de mémoire » et le problème de la stationnarité. L’abscisse est mentionnée de manière différente sur les deux graphes, mais il s’agit exactement du même comptage.24Ces deux graphes, qui représentent une simple statistique descriptive de l’évolution de la distance moyenne entre des paires d’événements séparés par n-1 événement, fait dire à Marsan que les données ne se comportent pas du tout de la même manière entre 2014 et 2015. Selon Marsan, l’effet de mémoire est très faible pour le crime. Si la distance augmente entre les paires d’événements de manière croissante pour les séismes, pour les crimes l’évolution n’est pas flagrante. Le plus surprenant pour Marsan, c’est que la distance moyenne n’est pas du tout la même d’une année sur l’autre pour le crime. Le phénomène n’est pas stationnaire. Comment se fait-il qu’une simple statistique descriptive parvienne à convaincre Marsan de la non-pertinence de son algorithme sur les données de Chicago et qu’elle n’inquiète pas Mohler qui, comme on le voit dans la réponse qu’il adresse à Marsan, n’est pas surpris par cette différence entre le phénomène sismologique et le phénomène criminologique ? Marsan apporte des éléments de réponse à cette question lors de notre entretien :
« Bilel, il faut que tu comprennes. Tu es statisticien, tu ne connais pas grand-chose au problème qu’on te pose et on te dit “on te paie, on te donne les données, donnez-nous le meilleur modèle possible”. Tu te mets au travail et tu te rends compte que ton modèle se comporte bien une année et qu’une année après, il ne se comporte pas bien. Tu es stateux, tu ne connais pas grand-chose au problème. Qu’est-ce que tu fais ? Lui en tant que statisticien, il se dit “mon modèle n’est pas assez souple, je vais l’assouplir un peu et je vais ajouter” u (t). Bon, moi, j’irais plutôt voir les policiers de la ville de Chicago pour comprendre ce qui s’est passé, ce qui a changé. Pourquoi en 2015 c’est différent qu’en 2014 ? Est-ce que c’est un problème de comptage ? Est-ce que les policiers ont changé leurs habitudes ? Bref, tu essaies de comprendre ce qui fait que ça change d’une année sur l’autre. Peut-être que Mohler essaie de comprendre, mais son attitude me laisse présager que ce n’est pas trop ce qu’il fait. Lui, il cherche à améliorer l’efficacité prédictive de son algorithme. Puisque ça ne marche pas très bien, il essaie d’assouplir un peu pour que ça aille mieux. Son modèle n’est pas assez souple, donc il dit “mon m (x, y) je vais l’assouplir un peu pour que ça aille mieux en ajoutant une variation temporelle au taux de fond”. »
26Grâce à sa connaissance intime de l’algorithme, Marsan parvient, pour ainsi dire, à prendre le pli de son propre algorithme, en se projetant dans la peau de Mohler. Avant que Marsan ne mette son nez dans les données de Chicago, l’algorithme de Predpol restait invisible non pas parce qu’il était protégé par le secret commercial, mais parce que tout ce qui permet de suivre le cours d’action assignable à l’algorithme restait caché. Marsan a permis de débusquer quelques invisibles sur lesquels l’algorithme tient. Ce faisant, le sismologue montre l’ingéniosité avec laquelle son travail a été détourné, transformé et traduit pour être utilisable dans le smartphone d’un officier de police. Il a découvert avec la même stupéfaction que nous que son algorithme est devenu autre entre les mains d’une équipe d’audacieux mathématiciens. Néanmoins, Marsan critique la manière dont les développeurs de Predpol ont déployé sa machine :
« Si ça se trouve, ce n’est pas la bonne approche. Si ça se trouve, c’est même la contagion qui est différente d’une année sur l’autre. Il faudrait rechanger les kernels de contagion. Mais c’est le plus pénible à ajuster. C’est plus simple d’ajouter une variable temporelle. C’est très basique ce qu’il fait. En sismo, on fait des choses beaucoup plus complexes pour faire évoluer le taux de fond en fonction du temps, pour tenir compte de la non-stationnarité. L’étape essentielle après l’article de Predpol serait de comprendre la non-stationnarité. Or ils avancent à l’aveugle. Moi, je pense que tu ne peux pas traiter tes données sans questionner la réalité qu’elle représente. Si tu veux, nous, on n’est pas mus par le même moteur. Nous, ce qui nous intéresse en sismo, ce n’est pas de faire de la prédiction, c’est de comprendre la forme du kernel. La contagion nous intéresse, car elle nous donne des indices sur les mécanismes qui font qu’un tremblement de terre va en enclencher un autre. Elle nous intéresse parce qu’elle nous apprend quelque chose sur le processus sismogénique. On ne va pas s’imposer une forme a priori, car c’est la forme qui nous intéresse. Lui, il ne s’intéresse pas à la forme de la contagion. Il n’a pas envie de comprendre comment la contagion va avoir lieu. Il a envie de faire une prédiction. Ça n’a rien avoir. Dans notre domaine, on retrouve le même type de chercheur. On a des gens qui font de la prédiction, mais qui n’ont pas envie de comprendre le processus. On est beaucoup à penser que ça mène à une impasse. »
28Ce n’est plus de l’inefficacité de la machine sur les données criminelles dont il est question, mais d’une condamnation morale du travail des développeurs de Predpol. C’est que le professeur de science de la terre du CNRS ne partage pas les mêmes valeurs que les mathématiciens touche-à-tout des universités californiennes. Pour Marsan, « prédire » pose un problème de recherche « fondamentale » : ce sont les fondements théoriques de la sismologie qui sont mis en question, dans un contexte où, en l’état actuel des savoirs théoriques disponibles, il est impossible de prédire les tremblements de terre. Il l’a répété plusieurs fois lors de nos entretiens :
« Les prédictions à court terme (de quelques heures à quelques jours) sont rarement couronnées de succès. Elles sont la plupart du temps cruellement décevantes. Nos échecs en matière de prédiction soulèvent régulièrement la question de savoir s’il n’y a pas impossibilité fondamentale de prédire les séismes. »
30La recherche fondamentale apparaît alors pour Marsan comme un repli tactique : il ne s’agit pas de revendiquer la production d’une recherche pure et autonome qui se suffirait à elle-même, mais de faire un pas de côté vers des travaux plus théoriques afin de surmonter le problème de la prédiction des séismes. La communauté des sismologues à laquelle Marsan appartient milite pour une approche compréhensive du phénomène. Elle s’oppose aux analyses uniquement probabilistes et prédictives, portées par des chercheurs qui considèrent que la recherche théorique en sismologie a atteint ses limites (cf. le débat dans Nature (Main, 1999) et notamment les positions opposées de Pascal Bernard et Didier Sornette que Marsan a évoquées lors de notre entretien). Marsan a traité les données du crime dans l’esprit avec lequel il traite les séismes. Selon lui, un modèle non paramétrique est intéressant si l’apprentissage statistique permet de générer des patterns qui ouvrent des questions de recherche pertinentes. Ce principe implique une évaluation de la justesse de l’algorithme : c’est la capacité du calcul à révéler un lien étroit ou un certain degré d’exactitude entre le modèle mathématique et une conception cohérente du phénomène étudié qui est évaluée. L’algorithme est jugé par les chercheurs californiens sur des critères différents : s’il permet d’améliorer la précision des scores de prédiction, alors l’algorithme est satisfaisant [10]. Marsan et les développeurs de Predpol ne font pas subir la même épreuve à l’algorithme. En Californie, la mise à l’épreuve cruciale s’est opérée par les courbes lift, des outils de comparaison de performance des algorithmes (figure 3). C’est dans cet esprit que les développeurs de Predpol se sont tournés vers la statistique des processus ponctuels, en mettant l’algorithme à l’épreuve de critère de compétition avec les autres algorithmes sur le marché de la prédiction. Les mathématiciens californiens aspirent à d’autres principes en fondant leur pratique de recherche sur des objectifs d’efficacité, de précision, de simplicité et de mise sur le marché d’une solution prédictive, autant de valeurs qui peuvent être totalement détachées de la justesse et de l’exactitude des résultats produits par les calculs (Daston, 2014).
Exemple de courbe d’efficacité prédictive
Exemple de courbe d’efficacité prédictive
Cet exemple montre la quantité de délits prédits avec succès par rapport au nombre de cellules projetées. Le graphe fait la démonstration de la supériorité prédictive de Predpol par rapport à Promap, l’outil pionnier de police prédictive développé en Angleterre dans les années 1990 par le criminologue Ken Pease et ses collaborateurs (Pease et Tseloni, 2014).La robustesse d’une prédiction est inversement proportionnelle à ses conséquences pratiques
31Voilà un invisible qu’il aurait été difficile de détecter sans l’aide de David Marsan : les développeurs de Predpol ont ajouté de la souplesse à l’algorithme en intégrant une variable temporelle au taux de fond, permettant de régler le plus simplement possible l’épineux problème de la stationnarité. Par ce dépliage, Marsan nous a délivrés de l’obsession généralisée pour la seule question de l’efficacité prédictive. Les algorithmes sont des êtres techniques capables de nous offrir l’occasion d’un débat bien plus riche. La situation de controverse que nous avons créée de toutes pièces (un moyen commode de montrer la somptueuse opacité de l’algorithme) révèle deux visions morales de l’activité prédictive différentes : l’exactitude (ou la justesse) des modèles ou la précision des scores de risque. Il nous faut maintenant suivre distinctement le réseau qui se déploie à partir de ces deux manières différentes de donner de la valeur à la prédiction.
32Rappelons ce principe de base de la sociologie des sciences : les phénomènes se définissent par la réponse qu’ils donnent aux épreuves que les scientifiques leur font subir dans leur laboratoire (Latour et Woolgar, 2006). Dans le laboratoire de science de la terre à Chambéry, ce que Marsan appelle une « réplique » agit comme un être spécifique :
« Dans ses analyses des répliques, le sismologue ne se contente pas de les dénombrer. Tout d’abord, c’est dans ces périodes agitées qu’il a le plus de chances d’attraper un séisme important dans les mailles de ses réseaux de mesure. Si les enregistrements sont en qualité et en nombre suffisant, il pourra tomographier la rupture de faille. Même sans grande réplique, il apprendra beaucoup des petites, en particulier sur les directions des contraintes tectoniques, qu’il peut déduire de leurs mécanismes. L‘essentiel du travail d’analyse consiste à localiser les séismes : à partir des temps d’arrivée des ondes P et des ondes S de chaque séisme à chaque sismomètre du réseau, on dessine point par point le nuage de répliques. D’apparence hétérogène, ce dernier présente des zones calmes et des essaims, dont la distribution évolue avec le temps : la nuée souterraine s’éloigne progressivement de la zone épicentrale. Les perturbations mécaniques de la faille principale diminuent rapidement avec la distance, si bien que les répliques ne sont observées, pour l’essentiel, que dans son voisinage, à des distances équivalentes à la longueur de la faille elle-même. L’étude des répliques permet de circonscrire la zone de mouvement principale, et de localiser la faille coupable, même si elle ne rompt pas jusqu’en surface. Mieux : la forme du nuage qu’elles dessinent dans l’opacité de la terre permet parfois de déterminer l’orientation de la faille. Dans certains cas, par une concentration anormale, les répliques trahissent le début de déstabilisation des failles voisines. Au début des années 1990, tout semblait avoir été dit ou fait avec les répliques ; les missions de terrain post-sismiques devenaient routinières, bien rodées, avec leurs analyses standards toujours plus efficaces. Toutefois, alors que les images des répliques devenaient plus précises, leur interprétation semblait impossible dans le détail, lequel dépend de paramètres incontrôlables, liés à la résistance et à l’état de contrainte, inconnaissables, des failles périphériques. »
34Les répliques apparaissent aux sismologues comme une chance de comprendre ce qui s’est passé, d’« attraper un séisme important ». Pour reprendre la formule plus technique utilisée par Marsan, les répliques servent « à filtrer le signal ». Dans les catalogues de sismicité, les ondes sismiques ont été enregistrées indistinctement par les sismographes, c’est pourquoi les sismologues ont besoin d’isoler les séismes indépendants (ceux liés par exemple aux mouvements séculaires de la tectonique des plaques, appelés aussi séismes principaux) des séismes dépendants les uns des autres (les précurseurs, les répliques, les multiplets). L’algorithme de Marsan s’inscrit dans le champ des méthodes dites de declustering qui ont été développées dans le but de capturer les séismes indépendants dans le traitement des données issues de catalogues, en distinguant tous les autres événements sismiques, notamment ceux correspondant à des répliques. L’enjeu principal est l’enrichissement de catalogue afin de modéliser la sismicité comme un processus où l’occurrence d’un séisme modifie le champ de contraintes avoisinantes et la capacité des failles dans les alentours à générer d’autres séismes. Pour modéliser la sismicité comme un continuum de séismes, Marsan doit être en mesure d’isoler des classes de séismes afin d’intégrer dans la modélisation de la sismicité le fait que les contraintes libérées par les petits séismes sont aussi importantes que celles résultant des plus gros séismes aux endroits où se produit la sismicité. C’est dans cet esprit d’isoler des classes de séismes que Marsan observe la part de l’apport de la « mémoire » dans la sismicité d’un secteur. Dans un article méthodologique critique sur les algorithmes de declustering, Marsan revient sur l’avantage de l’apprentissage statistique qui permet de s’affranchir d’une définition a priori des caractéristiques statistiques des classes de séismes qui constituent la sismicité. L’apprentissage artificiel intéresse Marsan, car il lui permet de remettre en question le système de catégories avec lequel il aborde la sismicité. C’est avec un certain nominalisme comme méthode qu’il questionne l’existence des trois classes de secousses : foreshocks, mainshocks et aftershocks. Le declustering doit être l’occasion de tester si les formes conventionnelles de classification des séismes ont un fondement dans la réalité. C’est par cette ouverture épistémique qu’il écrit les dernières lignes de son article :
« Même si de grands progrès ont été réalisés au cours de la dernière décennie [en sismologie statistique], il reste encore de nombreuses questions ouvertes, notamment le déclenchement physique des tremblements de terre, les effets des incertitudes du catalogue sur les résultats du declustering, ou l’effet des données censurées (sélection dans le temps, l’espace et l’amplitude) sur le résultat. En résumé, il faut être prudent lors de l’interprétation des résultats de declustering ou des résultats qui dépendent d’un catalogue qui a fait l’objet d’un declustering, car ces résultats ne peuvent pas refléter la nature exacte des secousses préalables, des secousses principales et des répliques ; en fait, la nature exacte de ces événements n’existe peut-être pas du tout ! »
36Et si les présecousses, les secousses principales et les répliques ne préexistaient pas à la modélisation ? C’est en quelque sorte de cette manière agnostique que Marsan aborde la modélisation. Il propose de suspendre les croyances en matière d’espèces de séismes, de renoncer à l’idée d’une structure prédonnée qu’il suffirait d’observer dans les catalogues, et il invite au passage à se méfier des données qu’il considère comme obtenues. Autrement dit, Marsan attend du machine learning de pouvoir être placé en deçà (Cardon, 2015) des formes catégorielles de la sismicité. À aucun moment Marsan ne voit dans l’algorithme qu’il a programmé une méthode de predictive analytics, car la prédiction des répliques n’est pas une fin en soi dans son travail de recherche [12]. Les répliques intéressent Marsan, car elles ont le pouvoir de l’aider à conceptualiser autrement le processus de sismicité.
37Dans le laboratoire de mathématique appliquée de Los Angeles, les développeurs de Predpol vont faire un usage différent des répliques. Ils mentionnent dans leur article que les méthodes de declustering pourraient être un moyen d’enrichir les catalogues de la criminalité, mais ils ne vont pas plus loin. Utiliser la prédiction dans cette perspective serait utile pour contribuer à la recherche sur la modélisation d’ensemble du crime – que nous avons traitée ailleurs, et sur laquelle nous ne reviendrons pas ici (Benbouzid, 2015) – qui pose des problèmes de recherche fondamentale pas moins complexes qu’en sismologie. Mais seules les « répliques » intéressent les chercheurs de Predpol, car elles ont la capacité d’ajouter aux cartographies de hotspots un processus supplémentaire d’alignement de régularités (les répétitions). Les répliques des crimes sont mobilisées pour leur capacité à capturer la plus grande proportion possible d’événements.
38Ainsi, sur la projection spatio-temporelle parcourue par l’algorithme, les répliques sont ce qu’elles font en fonction de ce que l’on essaie de leur faire faire. De la Californie à Chambéry, les répliques ont changées de statut, car elles ont pris place dans deux environnements institutionnels différents. À Chambéry, les classes d’entités mesurées existent dans un domaine où la prédiction renvoie à des conséquences démontrables, ce qui n’est pas le cas dans la police. Pour illustrer cette situation, Marsan a souvent ouvert, lors des entretiens, des parenthèses historiques sur le problème des conséquences démontrables dans la prédiction des séismes. Il mentionne l’exemple de Parkfield comme le cas symptomatique de ce problème en sismologie :
« Parkfield est une petite bourgade sur le segment de faille de San Andreas que les sismologues ont transformée en site d’observation, considéré aujourd’hui comme le site plus instrumenté de la planète, où ils avaient prévu un séisme en 1988, mais le séisme est arrivé en 2004 avec 16 ans de retard. Les échecs de prédiction de ce type ne sont pas rares en sismologie. Ils posent des problèmes particulièrement graves. »
40Dans les politiques de prédiction des séismes, les faux positifs et les faux négatifs engagent directement la responsabilité des scientifiques. L’expérience des faux positifs (les séismes qui ne se réalisent pas) laisse chez les habitants un sentiment d’angoisse généralisé et cause des pertes économiques importantes. L’expérience des faux négatifs, comme celle de L’Aquila, permet de comprendre facilement l’attitude réservée des sismologues sur leur capacité à fournir des prédictions robustes. Prédire un séisme implique d’évacuer des villes entières, ce qui a un coût considérable et peut provoquer de dangereux mouvements de panique à l’échelle du réseau routier d’une agglomération (Bernard, 2003).
41Dans les politiques de prédiction du crime, la plateforme Predpol fonctionne comme un outil de gestion de l’action policière. Les études de Predpol ont montré qu’en passant seulement 5 % de leur temps disponible dans les zones identifiées par l’algorithme, les patrouilles de police sont deux fois plus efficaces que lorsqu’elles patrouillent dans les points chauds classiquement identifiés par les analystes. L’exactitude de ce que prétend Predpol n’a pas beaucoup d’importance. Ce qui compte, c’est de pouvoir optimiser et surtout contrôler avec précision ce temps de présence tactique dans l’espace à risques. En intégrant les données des systèmes de suivi Global Positioning System (GPS) placés dans les voitures de police, l’algorithme permet d’optimiser le dosage de la présence des patrouilles de police selon les secteurs de la ville : le carré prédictif reste rouge sur la carte tant que la police n’y a pas patrouillé, il tourne ensuite au bleu lors des premiers passages, puis il apparaît en vert lorsque le policier a passé le temps suffisant et optimal calculé selon les ressources disponibles (par exemple 5 % du temps de la journée de travail d’un agent de police). Pour un responsable de secteur, Predpol apparaît comme un bon outil pour s’assurer que les policiers font bien leur travail préventif, souvent par leur simple présence dissuasive, distribuée de manière aléatoire, mais pendant une durée optimisée, dans les zones où le risque est estimé le plus haut. L’enjeu de la prédiction est de gérer l’offre publique de vigilance quotidienne, en minimisant le changement dans l’organisation policière. Alors que la prédiction des séismes a des impacts profonds sur les structures matérielles et sociales d’une ville, la prédiction des crimes, telle que Predpol l’envisage, implique une transformation minimale de l’organisation policière. L’attitude minutieuse, réservée et prudente, de David Marsan peut s’expliquer comme une habitude prise dans un domaine où les chercheurs engagent leur responsabilité dans des prédictions aux conséquences lourdes. De manière opposée, le succès fulgurant de Predpol tient aux faibles conséquences pratiques de ses prédictions, d’où la légèreté avec laquelle les chercheurs californiens prétendent prédire les crimes. La morale de cette controverse est que la robustesse d’une prédiction est inversement proportionnelle à ses conséquences pratiques.
La part divinatoire des machines predictives
42Si l’on veut mener plus loin cet examen des rapports entre les prédictions et leurs conséquences, une bonne source d’inspiration serait l’article de l’anthropologue Joel Robbins au sujet des styles de raisonnement moraux déontologique et conséquentialiste (Robbins, 2010). Mobilisant ces deux catégories classiques de la philosophie morale, Robbins qualifie de déontologique le style de raisonnement moral qui repose sur le suivi « de règles appropriées et non sur les conséquences des actions régies par ces règles ». À cette manière d’aborder la question morale s’oppose le conséquentialisme, « où l’on juge les actes par leurs résultats, et non par une conformité à une règle donnée ». Robbins approfondit cette analyse du raisonnement déontologique en mobilisant l’article de Jane I. Guyer, « Prophecy and the near future », au sujet de « l’évaporation de l’avenir proche dans la théorie et dans les représentations publiques ». Jane I. Guyer montre comment, dans les politiques économiques contemporaines et dans le discours évangélique, la focalisation sur le présent immédiat et le très long terme a mis le futur proche hors jeu en tant que cadre temporel. Robbins ajoute à l’analyse de Guyer que « ce qui est perdu dans ce mouvement est la possibilité d’un espace temporel pour le genre de raisonnement conséquentialiste », laissant la place à des formes de raisonnement déontologiques « qui n’ont pas besoin de se référer au monde du futur proche où il existe des conséquences démontrables ». Dans le raisonnement déontologique, le respect des principes l’emporte sur l’anticipation des effets : « Les différents styles de raisonnement moraux sont ancrés dans différents types de situations sociales et ce style ne prospère que dans les circonstances sociales qui leur sont propices. Le raisonnement moral conséquentialiste ne fonctionne que là où les gens ont le sentiment que leur monde social est relativement prévisible, de telle sorte que les conséquences probables d’une action semblent relativement faciles à évaluer avec certitude. Lorsque ces conditions ne sont pas présentes, les approches déontologiques ont plus de sens – même dans des situations où l’on ne peut pas contrôler les conséquences de ses actions, il est possible de contrôler la conformité à une règle ou à un ensemble de règles » (Robbins, 2010, p. 124).
43Cette distinction nous intéresse, car elle analyse deux approches morales différentes en rapport à des modalités de la prédiction qui font directement écho à ce qui oppose le sismologue et les mathématiciens de Predpol. Les circonstances sociales d’imprévisibilité des séismes pourraient être propices aux approches déontologiques, mais de facto Marsan adopte une attitude conséquentialiste : il poursuit son activité de recherche dans la perspective de rendre les séismes plus prévisibles et, partant, de rendre compréhensible l’annonce publique non pas d’un phénomène, mais de la construction théorique et probabiliste d’un phénomène. Predpol donne le sentiment à la police de travailler dans un monde plus prévisible, mais rares sont les situations où les policiers peuvent observer en direct le passage à l’acte des criminels, même lorsqu’ils se font discrets en civil sur les zones indiquées avec une précision de 200 mètres. Dès lors, comment Predpol peut-il prétendre « prédire » le crime ? Une remarque faite par Sean Malinowski, le premier capitaine de police à Los Angeles à avoir expérimenté la plateforme Predpol, donne un aperçu de ce que prédire veut dire pour la police : « Il n’y a pas de mauvaise prédiction du crime si celle-ci est réalisée de manière honnête » (traduction d’un extrait de l’entretien, août 2013) [13]. Contrairement aux sismologues, les policiers ne connaissent pas les prédictions « ratées », car, en pratique, la prédiction ne s’exprime pas en termes de vrai ou de faux, mais de « bon » ou de « mauvais ». Le problème n’est pas de croire ou de ne pas croire dans la prédiction, mais de faire quelque chose plutôt que rien, en suivant les recommandations de la machine.
44On pourrait rétorquer que les chercheurs de Predpol adoptent une éthique conséquentialiste puisqu’ils ont mis en place une évaluation de l’efficacité des recommandations de l’algorithme (Mohler et al., 2015). Mais il s’agit d’évaluer les conséquences sur le très court terme, sans jamais tester la significativité statistique des réductions mesurées au regard des tendances générales du crime sur le temps long [14]. Maîtrisant difficilement les conséquences pratiques de ses actions quotidiennes sur les tendances longues du crime, la police parvient grâce au logiciel Predpol à optimiser un contrôle sur des phénomènes sociaux qui la dépassent (Manning, 2008). Il est plus simple pour la police de s’en remettre aux dosages recommandés par la machine : par la procédure de l’apprentissage statistique, le crime prend forme dans une machine qui en retour produit des règles suivies par la police. Il s’agit de laisser au machine learning le pouvoir de s’approprier la marge d’indétermination de la machine. C’est pourquoi Predpol reste un automate fermé sur lui-même, et comme tous les automates, il ne peut fournir que des résultats assez sommaires (un tableau de bord analytique indique les risques à venir par un simple ajout aux cartographies de hotspots d’un processus supplémentaire d’alignement de régularités (les répétitions)). A contrario, le sismologue profite de la logique inductive du machine learning pour incarner la figure du « régleur » et de l’« organisateur » permanent du dispositif prédictif. Entre les mains de Marsan, l’algorithme est devenu une machine ouverte (Simondon, 2012) sur laquelle il est possible d’intervenir et à partir de laquelle il s’agit de comprendre pour agir en conséquence.
45Pour résumer, ce qui distingue l’approche de Marsan de celle des développeurs de Predpol, c’est que la première pense la prédiction en termes de conséquence pratique et la deuxième en termes de devoir absolu d’agir. La police prédictive est déontologique en ceci que la question principale qui est posée à l’algorithme est « que dois-je faire ? » et non pas « quel est le meilleur état du monde possible au regard des conséquences de mes actions ? » (Ogien et Tappolet, 2009). Ces deux morales de la prédiction se déploient dans deux espaces pratiques temporels différents. Marsan pense la prédiction dans la temporalité du futur proche, le temps d’équiper un secteur ou d’évacuer une ville, un cadre temporel qui impose de penser la morale de son activité de recherche en termes de conséquences prévisibles – son éthique de la responsabilité le pousse à dire « nous sommes incapables de prédire [15] » ; les prédictions de Predpol focalisent sur le présent immédiat (le real time analysis), et non sur les conséquences sur le temps long des actions régies par les prédictions. Les attitudes des évangélistes [16] analysées par Robbins et l’intégration des machines prédictives dans l’organisation policière peuvent de ce point de vue être rapprochées davantage qu’on pourrait le croire. Les uns situent le futur entre les mains de dieux, les autres entre celles d’une machine dans laquelle les dirigeants de la police espèrent trouver le salut. Lorsqu’elles opèrent dans ce style de raisonnement moral déontologique, les machines prédictives de l’apprentissage artificiel ne sont pas seulement faites de technique, de science et d’organisation, mais contiennent aussi une part de divination.
Références
- ANDERSON M. J. (1990), The American Census: A Social History, New Haven, Yale University Press.
- BEER D. (2009), « Power through the algorithm? Participatory web cultures and the technological unconscious », New Media & Society, vol. 11, pp. 985-1002.
- BENBOUZID B. (2015), « From situational crime prevention to predictive policing », Champ pénal, vol. 12, http://champpenal.revues.org/9050 (consulté le 25 octobre 2017).
- BENBOUZID B. (2016), « À qui profite le crime ? Le marché de la prédiction du crime aux États-Unis », La vie des idées, http://www.laviedesidees.fr/A-qui-profite-le-crime.html (consulté le 25 octobre 2017).
- BERNARD P. (2003), Qu’est-ce qui fait trembler la terre ? À l’origine des catastrophes sismiques, Les Ulis, EDP Sciences.
- BOLTANSKI L., THÉVENOT L. (1991), De la justification, Paris, Gallimard.
- CAMBROSIO A., KEATING P., SCHLICH T., WEISZ G. (2006), « Regulatory objectivity and the generation and management of evidence in medicine », Social Science & Medicine, n° 63, pp. 189-199.
- CARDON D. (2015), À quoi rêvent les algorithmes. Nos vies à l’heure des big data, Paris, Le Seuil.
- CRAWFORD K. (2016), « Can an Algorithm be Agonistic? Ten Scenes from Life in Calculated Publics », Science, Technology, & Human Values, n° 41, pp. 77-92.
- DASTON L. (2014), L’économie morale des sciences modernes, Paris, La Découverte.
- DESROSIÈRES A. (2002), The Politics of Large Numbers: A History of Statistical Reasoning, Cambridge (MA), Harvard University Press.
- DIAKOPOULOS N. (2014), Algorithmic Accountability, Reporting: On the Investigation of Black Boxes, New York, Tow Center for Digital Journalism.
- DOMINGOS P. (2017), The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World, New York, Penguin.
- DOURISH P. (2016), « Algorithms and Their Others: Algorithmic Culture in Context ». Big Data and Society, vol. 3, n° 2, https://doi.org/10.1177/2053951716665128 (consulté le 26 octobre 2017).
- HACKING I. (1999), The Social Construction of What ?, Cambridge (MA), Harvard University Press.
- HOURDEAUX J. (2016), « Police prédictive : deux chercheurs démontent l’algorithme », Mediapart, https://www.mediapart.fr/journal/international/130916/police-predictive-deux-chercheurs-demontent-l-algorithme?onglet=full (consulté le 25 octobre 2017).
- INGOLD T. (2013), Making: Anthropology, Archaeology, Art and Architecture, Abingdon, Routledge.
- JOBARD F., MAILLARD, J. DE (2015), Sociologie de la police – Politiques, organisations, réformes, Paris, Armand Colin.
- LATOUR B. (1987), Science in Action: How to Follow Scientists and Engineers Through Society, Cambridge (MA), Harvard University Press.
- LATOUR B. (2010), « Prendre le pli des techniques », Réseaux, n° 163, pp. 11-31.
- LATOUR B. (2012), Enquête sur les modes d’existence : une anthropologie des modernes, Paris, La Découverte.
- LATOUR B., WOOLGAR S. (2006), La vie de laboratoire : la production des faits scientifiques, Paris, La Découverte.
- MACKENZIE D. (2004), Mechanizing Proof: Computing, Risk and Trust, Cambridge (MA), MIT Press.
- MAIN I. (1999), « Is the reliable prediction of individual earthquakes a realistic scientific goal ? » Nature Debates, http://www.nature.com/nature/debates/earthquake/equake_frameset.html (consulté le 25 octobre 2017).
- MANNING P. K. (2008), The Technology of Policing: Crime Mapping, Information Technology, and the Rationality of Crime Control, New York University Press.
- MARSAN D., LENGLINÉ O. (2008), « Extending Earthquakes’ Reach Through Cascading », Science, n° 319, pp. 1076-1079.
- MITTELSTADT B. D., ALLO P., TADDEO M., WACHTER S., FLORIDI L. (2016), « The ethics of algorithms: Mapping the debate », Big Data and Society, vol. 3, n° 2, https://doi.org/10.1177/2053951716679679 (consulté le 25 octobre 2017).
- MOHLER G. O., SHORT M. B., BRANTINGHAM P. J., SCHOENBERG F. P., TITA G. E. (2011), « Self-Exciting Point Process Modeling of Crime », Journal of the American Statistical Association, n° 106, pp. 100-108.
- MOHLER G. O., SHORT M. B., MALINOWSKI S., JOHNSON M., TITA G. E., BERTOZZI A. L., BRANTINGHAM P. J. (2015), « Randomized Controlled Field Trials of Predictive Policing », Journal of the American Statistical Association, n° 110, pp. 1399-1411.
- OGIEN R., TAPPOLET C. (2009), Les concepts de l’éthique : faut-il être conséquentialiste ?, Paris, Hermann.
- OLAZARAN M. (1996), « A Sociological Study of the Official History of the Perceptrons Controversy », Social Studies of Sciences, n° 26, pp. 611-659.
- O’NEIL C. (2016), Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy, New York, Crown.
- PEASE K., TSELONI A. (2014), Using Modeling to Predict and Prevent Victimization, New York, Springer.
- PERRY W. L. (2013), Predictive Policing: The Role of Crime Forecasting in Law Enforcement Operations, Santa Monica (CA), Rand Corporation.
- PORTER T. M. (1996), Trust in Numbers: The Pursuit of Objectivity in Science and Public Life, Princeton, Princeton University Press.
- ROBBINS J. (2010), « On the Pleasures and Dangers of Culpability ». Critique of Anthropology, n° 30, pp. 122-128.
- ROUVROY A., BERNS T. (2013), « Gouvernementalité algorithmique et perspectives d’émancipation », Réseaux, n° 177, pp. 163-196.
- SANDVIG C., HAMILTON K., KARAHALIOS K., LANGBORT C. (2014), « Auditing Algorithms: Research Methods for Detecting Discrimination on Internet Platforms », Data and Discrimination: Converting Critical Concerns into Productive Inquery, Conference paper.
- SHMUELI G. (2010), « To Explain or to Predict? » Statistical. Science, n° 25, pp. 289-310.
- SILVER N. (2015), The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t, New York, Penguin.
- SIMONDON G. (2012), Du mode d’existence des objets techniques, Paris, Aubier.
- VAN STIPHOUT T., ZHUANG J., MARSAN D. (2012), « Seismicity declustering ». CORSSA articles.
- WALKER S. (2004), « Science and Politics in Police Research: Reflections on Their Tangled Relationship ». The Annals of American Academy of Political and Social Science, n° 593, pp. 137-155.
- WEISBURD D., BRAGA A. A. (2006), Police Innovation: Contrasting Perspectives, Cambridge (MA), Cambridge University Press.
- WEISBURD D., BERNASCO W., BRUINSMA G.J.N. (2009), Putting Crime in Its Place: Units of Analysis in Geographic Criminology, New York, Springer.
- ZARSKY T. (2016), « The Trouble with Algorithmic Decisions ». Science, Technology and Human Values, n° 41, pp. 118-132.
- ZIEWITZ M. (2016), « Governing Algorithms: Myth, Mess, and Methods ». Science, Technology and Human Values, n° 41, pp. 3-16.
Mots-clés éditeurs : algorithme, police prédictive, morale, quantification, sociologie des sciences et des techniques, éthique, machine learning
Date de mise en ligne : 20/12/2017
https://doi.org/10.3917/res.206.0095Notes
-
[*]
Cet article s’inscrit dans le cadre du projet INNOX, Innovation dans l’expertise. Modélisation et simulation comme instrument de gouvernement (ANR-13-SOIN-0005).
-
[1]
La page professionnelle de David Marsan : https://www.isterre.fr/annuaire/pages-web-du-personnel/david-marsan/?id_auteur=131 (consulté le 25 octobre 2017).
-
[2]
Nous avons échangé à plusieurs reprises avec David Marsan entre février 2015 et mars 2017. Les citations de David Marsan sont tirées du quatrième entretien que nous avons réalisé avec lui à Chambéry en avril 2016.
-
[3]
Nous avons rendu publique l’analyse de Marsan dans un article publié sur le site de la Vie des idées (Benbouzid, 2016), relayée par Mediapart (Hourdeaux, 2016).
-
[4]
La stratégie de lancement de Predpol repose en grande partie sur ce slogan accrocheur More Than Hotspot Tool. À partir de ce slogan publicitaire, les responsables marketing de Predpol tentent de séduire les dirigeants de la police en prétendant faire mieux que le « hotspots policing », la manière de labéliser la police proactive depuis les années 1990. Sur le site de la start-up (predpol.com), les expérimentations du logiciel sont systématiquement associées à une réduction du crime autour de 20 %, du moins une réduction toujours plus importante que dans les secteurs où le logiciel n’est pas utilisé.
-
[5]
Marsan et son collaborateur Lengliné publient en 2008 dans Science un article remarqué en sismologie statistique (Marsan et Lengliné, 2008). C’est cet article que les mathématiciens de Predpol citent dans leur article (ibid., 2011). La méthode statistique développée par Marsan est transposée à l’identique, hormis les éléments de traduction essentiels pour adapter l’algorithme aux contraintes d’opérationnalisation.
-
[6]
Pour une histoire des origines controversées des réseaux de neurones, consulter Olazaran (1996).
-
[7]
L’opacité des algorithmes est devenue un lieu commun : non seulement le code source des machines est la plupart du temps protégé par le secret commercial, mais aussi il décrit un processus d’apprentissage artificiel, si complexe et consommateur de variables que les résultats apparaissent difficilement interprétables par les spécialistes eux-mêmes. Qu’elle soit volontaire ou non, l’opacité apparaît comme le problème central dans le débat public actuel et ce dans tous les pays qui ont mis le problème des algorithmes à l’agenda politique (Mittelstadt et al., 2016).
-
[8]
On peut consulter la note critique complète de Marsan à partir de l’article publié sur le site du journal Mediapart, « Police prédictive : deux chercheurs démontent l’algorithme », 13 septembre 2016.
-
[9]
« Thanks for your email and sending along the analysis. I have found your work on nonparametric point processes quite interesting and influential! We have certainly seen the branching ratio vary quite a lot from city to city and crime type to crime type (from 0 to .5). As you point out, it is important to pick such parameters using cross validation in which case it is certainly possible that a simpler model may be favored. It also may be the case that the nonparametric model you are using is over-parametrized (it looks like it has over 30 parameters), so it may be over-fitting the training data. You might need more regularization, or you might want to use a semi-parametric model (you mention using an exponential smoothing kernel, which is essentially a parametric Hawkes process without the background rate). Another thing you bring up is the non-stationarity of the process. I think this is important and something we tried to estimate in the JASA paper (where the background rate \mu depends on time). Disentangling endogenous contagion from exogenous fluctuations in the intensity is a somewhat open problem, though I have done a little work in this area. The non-stationarity of the background rate is one big difference between crime and earthquakes, and you often try to factor in seasonality and other explicit exogenous predictors. » (Courriel de Mohler à Marsan, 3 septembre 2015).
-
[10]
Comme le souligne Daston (2014, p. 32), si « la justesse concerne la manière dont les nombres ou des grandeurs géométriques correspondent à une partie du monde et suppose qu’un modèle mathématique puisse être ancré dans la mesure, […] la précision concerne la clarté, la distinction et l’intelligibilité des concepts, et, par elle-même, ne dit rien sur la correspondance ou non des notions avec le monde ».
-
[11]
« Even though great progress has been made in the last decade, there are still many open questions, i.e., starting with the physical triggering of earthquakes (aftershocks), effects of uncertainties in the catalog on the results of declustering, or the effect of censored data (selection in time, space and magnitude range) on the outcome. In summary, care should be taken when interpreting results of declustering or results that depend on a declustered catalog, because these results cannot reflect the exact nature of foreshocks, mainshocks and aftershocks; indeed the exact nature of these events may not exist at all! » (Thomas van Stiphout et al., 2012)
-
[12]
Même si, pour les sauveteurs engagés dans les ruines à la recherche de survivants, ces répliques sont une menace, la recherche de Marsan ne s’inscrit pas dans l’objectif d’améliorer l’efficacité de leur prédiction.
-
[13]
« If honestly done, there are no bad prediction in crime control » (entretien août 2013).
-
[14]
L’évaluation mise en place par Predpol apparaît davantage dans la continuité du plan marketing de la start-up plutôt que dans une logique d’« objectivité de régulation » (Cambrosio et al., 2006) comme en sismologie avec le programme « Collaboratory for the Study of Earthquake Predictability (CSPEP) », http://www.cseptesting.org/ (consulté le 25 octobre 2017).
-
[15]
Pour une analyse stimulante de la difficulté de prédire les séismes en comparaison à d’autres phénomènes, on peut consulter l’ouvrage de Nate Silver (Silver, 2015).
-
[16]
Robbins montre que le succès actuel des mouvements évangélistes tient à ce que la période contemporaine suscite de l’incertitude quant au futur proche pour lequel il n’est plus possible de ne rien prédire, conduisant les individus à se concentrer sur le présent de leurs actes et à se projeter dans un avenir mystique lointain. On peut faire un parallèle entre les pentecôtistes observés par Robbins et les Chief Evangelist Officers qui travaillent à accélérer les ventes des technologies prédictives.