Couverture de RCE_022

Article de revue

13. Les expérimentations aléatoires, le « gold standard » des méthodes d’évaluation d’impact ?

Pages 184 à 194

Introduction

1Esther Duflo est sans doute, avec Thomas Piketty, l’économiste française la plus médiatisée des dernières années. Récipiendaire de nombreuses médailles et distinctions scientifiques, elle occupe une place importante dans le champ de la recherche académique en économie. Professeure au MIT et directrice d’un laboratoire de renom qu’elle a co-fondé (le Poverty Action Lab, J-PAL), elle doit sa renommée et son fulgurant parcours à une méthode : les expérimentations aléatoires.

2Si elle ne l’a pas inventée (Jatteau, 2016), elle a largement contribué à la populariser, avec ses collègues du J-PAL. Il s’agit d’une méthode quantitative d’évaluation d’impact, qui cherche à mesurer les effets d’un programme ou d’un projet. Elle souhaite ainsi à répondre à une question simple : est-ce que ça marche ? Son originalité tient, nous allons le voir, dans l’utilisation du tirage au sort.

3Cette méthode connaît un vif succès tant dans le monde académique que politique, à tel point qu’elle est souvent présentée comme le « gold standard » des méthodes d’évaluation (Banerjee, 2007 ; Angrist et Pischke, 2009). C’est précisément ce statut que nous souhaitons questionner dans cet article, après avoir présenté les contours de la méthode.

Que sont les expérimentations aléatoires ?

Comment savoir ce qui se serait passé ?

4La question de savoir si « quelque chose » (un médicament, une mesure, une politique, etc.) marche est en toute rigueur insoluble. Prenons l’exemple d’un mal de tête que l’on souhaite faire disparaître ou au moins atténuer à l’aide d’un cachet de paracétamol. Admettons qu’au bout de quelques heures, ce mal de tête ait effectivement disparu. Peut-on en conclure que le paracétamol « marche » ? Non, car on ignore ce qui se serait passé si l’on avait omis de prendre le cachet. Peut-être que le mal de tête aurait disparu de toute façon, mais il est impossible de le savoir.

5Le raisonnement est similaire pour des politiques publiques. Si l’on prend une mesure visant à faire baisser le taux de chômage et que celui-ci baisse effectivement quelques mois après, on peut être tenté d’en conclure que la mesure a été efficace. Pourtant, le taux de chômage aurait pu baisser même en l’absence de cette mesure pour d’autres raisons.

6On le voit, la question de l’évaluation des effets d’une mesure – savoir si « ça marche » – est une question qui ne peut rencontrer de traitement pleinement satisfaisant. Pour que l’évaluation soit la plus crédible possible, tout l’enjeu est d’essayer d’approcher, par une méthode adéquate, ce qui se serait passé.

7Une possibilité est de sortir du raisonnement purement individuel. Dans l’exemple du paracétamol, il s’agirait ainsi de sélectionner deux groupes parmi des individus atteints de maux de tête. À l’un, on donnerait du paracétamol (on parle de « groupe test »), mais pas à l’autre (on parle de « groupe témoin »). Ainsi, on pourrait se dire que le groupe témoin nous informe sur l’état qui aurait été celui du groupe test s’il n’avait pas reçu le paracétamol – on parle de groupe contrefactuel. Si le groupe test se porte mieux au bout de quelques heures que le groupe témoin, c’est que le paracétamol est efficace contre le mal de tête.

8Là aussi, le raisonnement est identique en économie. Si l’on souhaite tester l’efficacité des remboursements sur une base individuelle en microfinance (Giné et Karlan, 2011), des groupes de niveau dans les écoles primaires (Duflo, Dupas et Kremer, 2011) ou encore des subventions pour passer le permis de conduire (L’Horty et al., 2012), on peut constituer des groupes témoin et test.

Le rôle du tirage au sort

9Ce qui est crucial ici, c’est que les groupes se ressemblent suffisamment pour que l’un soit un contrefactuel crédible de l’autre. Dans le cas des subventions aux permis de conduire, si l’on met dans un groupe les étudiants et dans un autre les chômeurs, on risque de comparer ce qui n’est pas comparable. Or les différences entre ces groupes peuvent avoir un impact différencié sur la réussite à l’examen du permis de conduire, indépendamment de l’effet de la subvention. Or c’est bien ce dernier effet qui nous intéresse et, pour bien le mesurer, il ne faut pas qu’il soit parasité.

10Plusieurs méthodes existent pour essayer d’obtenir des groupes comparables (Fougère, 2010), mais celle des expérimentations aléatoires est souvent présentée comme la plus performante. Parmi la population pour laquelle on souhaite tester une mesure, il s’agit de tirer au sort les deux groupes (l’un témoin, l’autre test). Le tirage au sort permet de maximiser les chances d’obtenir des groupes comparables, suivant quelques lois statistiques. Plus le nombre d’individus dans chaque groupe sera élevé, plus grandes seront les chances d’avoir des groupes semblables. On peut en effet montrer que tirer au sort deux groupes de cinq individus chacun comporte plus de risques d’avoir deux groupes différents suivant un certain nombre de variables (taux de femmes, âge moyen, revenu moyen, etc.) que tirer au sort deux groupes de dix mille individus chacun.

11Une fois les groupes aléatoirement constitués et le groupe de test traité, il suffit de comparer les deux groupes suivant des indicateurs qui nous intéressent ; pour la subvention au permis de conduire, par exemple, le taux de réussite à l’examen ou l’insertion professionnelle peuvent constituer des indicateurs intéressants.

Un exemple d’expérimentation aléatoire

12Les expérimentations aléatoires couvrent aujourd’hui tous les domaines, comme l’éducation, la santé, l’agriculture, la finance, l’environnement, le travail (Duflo, 2010a ; Duflo, 2010b)… À chaque fois, on opère un tirage au sort pour constituer les groupes, qui sont ensuite comparés.

13Prenons comme exemple une des expérimentations aléatoires les plus célèbres (Miguel et Kremer, 2004). Il s’agissait de chercher à réduire l’absentéisme des écoliers au Kenya, dont l’une des causes est la prolifération de vers intestinaux, qui rendent malade les élèves. Les deux économistes ont souhaité voir si la distribution de vermifuge pouvait accroître leur présence en améliorant leur état de santé. Ils ont donc tiré au sort deux groupes. Dans l’un, on a distribué des vermifuges aux enfants, et pas dans l’autre. Au bout de plusieurs mois, on a mesuré l’absentéisme dans les deux groupes et observé qu’il avait reculé d’un quart dans le groupe test. Le niveau scolaire n’avait en revanche pas augmenté de manière significative dans ce groupe.

Les limites des expérimentations aléatoires

La difficile mesure des effets

14Il est rare qu’une mesure ait un impact homogène. Dans un cas, ce sont les élèves les plus faibles qui vont en bénéficier le plus, dans un autre, ce sont les hommes, ou les plus riches etc. Il peut être intéressant pour les pouvoirs publics de connaître la distribution des effets du programme que l’on teste. En effet, un programme peut marcher en moyenne, mais il se peut qu’il y ait des « gagnants » et des « perdants ». Or, avec les expérimentations aléatoires, on se borne à comparer des moyennes entre les groupes (Banerjee et Duflo, 2009). Comme ce sont eux qui ont été tirés au sort, ils sont comparables, mais il n’est pas possible de comparer des parties de ces groupes (par exemple les élèves les plus faibles du groupe témoin et les élèves les plus faibles du groupe test), car ces parties n’ont pas été tirées au sort et risquent donc de ne pas être comparables. Les expérimentations aléatoires ne peuvent ainsi rien nous dire sur la distribution des effets, sauf à y ajouter des hypothèses (Heckman, 1991).

15Une autre limite peut venir biaiser les résultats que l’on tire d’une telle méthode. Lorsque l’on met en place une expérimentation, on agit sur l’environnement et sur les personnes pour lesquelles on souhaite évaluer les effets : en leur demandant de répondre à un questionnaire, en leur distribuant des moustiquaires (Cohen et Dupas, 2010), en leur proposant des subventions pour passer le permis de conduire (L’Horty et al., 2012)… Le risque est alors que les individus modifient leur comportement non pas en réponse au traitement mais précisément parce qu’ils participent à une expérimentation. On peut ainsi être plus attentif que l’on est d’habitude, plus appliqué. C’est un effet connu sous le nom d’effet Hawthorne (Mayo, 1933). Il est difficile de détecter sa présence. Pourtant, s’il est effectif, la signification des résultats que l’on peut tirer d’une expérimentation aléatoire est réduite : les effets mesurés proviennent-ils du programme testé ou du simple fait que les individus ont modifié leur comportement suite à leur participation à l’expérimentation ?

Les expérimentations aléatoires en pratique

16Si les expérimentations aléatoires peuvent être séduisantes d’un point de vue méthodologique, il ne faut pas perdre de vue qu’elles sont ensuite appliquées sur le terrain. Dans ce passage de la théorie à la pratique, divers bricolages ont lieu et peuvent nuire à la robustesse de la méthode (Jatteau, 2013b). La passation des questionnaires engendre souvent des arrangements de la part des enquêteurs sur la formulation des questions et des réponses proposées, et le tirage au sort lui-même peut prendre différentes formes et ne pas toujours correspondre aux canons méthodologiques. Le programme qui est testé peut être amené à s’adapter aux contraintes du terrain et ainsi ne pas correspondre exactement au plan aléatoire qui assure la validité des résultats. Or la marginalisation des approches qualitatives d’observation ethnographique, qui auraient pu permettre de saisir la réalité de ce qui est effectivement mesuré, limite la prise en compte de ce passage de la théorie à la pratique.

17Ces différents arrangements sont habituels en sciences sociales, et ne posent pas nécessairement de problème majeur, pour peu qu’ils soient documentés et explicités, ce qui n’est pas toujours le cas avec les expérimentations aléatoires.

Le problème de la généralisation

18Une question importante pour tout dispositif d’évaluation est la capacité qu’il possède à fournir des résultats généralisables, c’est-à-dire demeurant valables au-delà du contexte dans lequel ils ont été obtenus. Les expérimentations aléatoires sont presque toujours circonscrites à un territoire bien défini et sur une population particulière (et au mieux constituée de quelques milliers de personnes).

19De fait, en toute rigueur, et c’est là une limite majeure, leurs résultats ne sont pas généralisables. En quoi une expérimentation aléatoire menée dans une région d’un État indien nous informe-t-elle sur une autre région de ce même État, ou sur un autre État ? La réponse à une telle question conditionne largement l’intérêt d’une telle méthode. En effet, si on ne peut dire que peu de choses au-delà du contexte, à quoi bon mobiliser des sommes et des ressources humaines conséquentes pour multiplier les expérimentations aléatoires ?

20À l’heure actuelle, cette question de la généralisation demeure un point faible non résolu de la méthode. La réplication d’expérimentations aléatoires dans différents contextes peut apporter des éléments intéressants à ce sujet, mais ne saurait constituer la seule réponse (Jatteau, 2013a). Il convient de mobiliser plus largement le spectre méthodologique des sciences sociales (observation, entretien) pour espérer disposer d’une connaissance plus fine des différents contextes dans lesquels se déroulent les expérimentations et espérer répondre à la question de la généralisation.

À la recherche de la causalité…

21Souvent, lorsqu’est présentée ou commentée une expérimentation aléatoire, il est question d’ « effet causal ». Ainsi, cette méthode permettrait de mettre en avant des causalités. Pourtant, l’économiste américain Angus Deaton (2010) vient remettre en cause une telle affirmation, en soulignant qu’une expérimentation aléatoire peut éventuellement montrer si une mesure a des effets, mais non pourquoi elle a des effets.

22Il s’agit sur ce point d’opérer une distinction fondamentale entre les preuves d’efficacité – qui montrent qu’une chose à un effet sur une autre – et les preuves de causalité – qui insistent sur les mécanismes qui expliquent cet effet –, bien documentée en médecine (Laurent et al., 2009). Montrer que quelque chose « marche », ce n’est pas nécessairement mettre en avant pourquoi. Cette distinction doit s’appliquer en économie, en particulier dans le domaine des expérimentations aléatoires.

Conclusion

23Les expérimentations aléatoires apportent assurément une réponse intéressante à la manière de constituer un groupe contrefactuel. Avec sa simplicité, cette méthode constitue un choix intéressant en matière d’évaluation d’impact. Pour autant, on ne saurait mettre de côté ses limites, souvent communes aux autres méthodes d’évaluation d’ailleurs, et il paraît exagéré de l’ériger en « gold standard ». De la même manière que l’utilisation du tirage au sort qu’elle préconise vient combler les lacunes d’autres approches, elle gagnerait à être complétée par d’autres méthodes d’évaluation, y compris qualitatives. Un pluralisme méthodologique en matière d’évaluation nous paraît préférable à une hiérarchie discutable qui placerait les expérimentations aléatoires au sommet.

  • Angrist J. et Pischke J.-S. (2009), Mostly Harmless Econometrics: An Empiricist’s Companion, Princeton, Princeton University Press.
  • Banerjee A.V. (2007, dir.), Making Aid Work, Cambridge, The MIT Press.
  • Banerjee A.V. et Duflo E. (2009), « L’approche expérimentale en économie du développement », Revue d’économie politique, 119, p. 691-726.
  • Cohen J. et Dupas P. (2010), « Free distribution or cost-sharing? Evidence from a randomized malaria prevention experiment », Quarterly Journal of Economics, 125(1), p. 1-45.
  • Deaton A. (2010), « Instruments, randomization, and learning about development ». Journal of Economic Literature, 48(2), p.424-455.
  • Duflo E. (2010a), Le développement humain, Paris, Seuil.
  • Duflo E. (2010b), La politique de l’autonomie, Paris, Seuil.
  • Duflo E., Dupas P. et Kremer M. (2011), « Peer effects, teacher incentives, and the impact of tracking: evidence from a randomized evaluation in Kenya », American Economic Review, 101(5), p.1739-1774.
  • Fougère D. (2010), « Les méthodes économétriques d’évaluation », Revue française des affaires sociales, 1(1-2), p. 105-128.
  • Giné X. et Karlan D. (2011), « Group versus individual liability: long term evidence from Philippine microcredit lending groups », Document de travail.
  • Heckman J.J. (1991), « Randomization and social policy evaluation », Document de travail, National Bureau of Economic Research.
  • Jatteau A. (2013a), Les expérimentations aléatoires en économie, Paris, La Découverte.
  • Jatteau A. (2013b), « Expérimenter le développement ? Des économistes et leurs terrains », Genèses, 93, p. 8-28.
  • Jatteau A. (2016), « Faire preuve par le chiffre ? Le cas des expérimentations aléatoires en économie », Thèse de doctorat, ENS Paris Saclay.
  • Laurent C., Baudry J., Berriet-Solliec M., Kirsch M., Perraud D., Tinel B., Trouvé A., Allsopp N., Bonnafous P., Burel F., Carneiro M.J., Giraud C., Labarthe P., Matose F. et Ricroch A. (2009), « Pourquoi s’intéresser à la notion d’“evidence-based policy” ? », Tiers Monde, 200, p. 853-873.
  • L'Horty Y., Duguet E., Petit P., Rouland B. et Tao Y. (2012), « Faut-il subventionner le permis de conduire des jeunes en difficulté d’insertion ? », Rapport d’évaluation quantitative, FEJ.
  • Mayo E. (1933), The Human Problems of an Industrial Civilization, New York, The Macmillan Company.
  • Miguel E. et Kremer M. (2004), « Worms: identifying impacts on education and health in the presence of treatment externalities », Econometrica, 72(1), p. 159-217.

Date de mise en ligne : 17/12/2018

https://doi.org/10.3917/rce.022.0184

Domaines

Sciences Humaines et Sociales

Sciences, techniques et médecine

Droit et Administration

bb.footer.alt.logo.cairn

Cairn.info, plateforme de référence pour les publications scientifiques francophones, vise à favoriser la découverte d’une recherche de qualité tout en cultivant l’indépendance et la diversité des acteurs de l’écosystème du savoir.

Retrouvez Cairn.info sur

Avec le soutien de

18.97.14.85

Accès institutions

Rechercher

Toutes les institutions