Notes
-
[*]
Cet article est une traduction de l’article « The Experimental Approach in Development Economics », Annual Review of Economics, volume 1, numéro 1, p.151-178, 2009. La traduction a été révisée par Hélène Giacobino et Esther Duflo.
Nous remercions Guido Imbens pour les nombreuses conversations très utiles que nous avons eues ensemble, et James J. Heckman pour les commentaires détaillés qu’il a fait à la lecture de la première version de cet article. -
[**]
Department of Economics and Abdul Latif Jameel Poverty Action Lab, Massachusetts Institute of Technology, Cambridge, Massachusetts. Email : banerjee@mit.edu, eduflo@mit.edu
-
[1]
L’approche inverse, c’est-à-dire celle qui consiste à passer d’une intervention à la fois au programme complet peut également être adaptée dès lors que vos antécédents montrent que certaines combinaisons vont fonctionner, alors que l’alternative est meilleure si, d’une manière générale, vous êtes sceptique.
-
[2]
Cette souplesse n’est bien entendu pas sans limites. Les problèmes éthiques (supervisés par les Conseils Internes des Universités) et la contrainte de travailler avec une organisation de terrain impose une limite aux questions que vous pouvez poser, par rapport à ce qu’il est possible de faire avec une expérimentation en laboratoire. Tout ne peut pas être testé et tout le monde n’accepte pas d’être un cobaye. Cependant, le caractère très réaliste du cadre est un avantage énorme. Il convient de noter que les coûts moindres des programmes et que le fait de travailler avec des partenaires ONG permet d’étendre la palette d’expérimentations réalisables dans le domaine du développement, par comparaison à ce qui a été réalisable aux États-Unis.
-
[3]
On notera que les expérimentations par assignation aléatoire ne sont pas toutes à petite échelle. Par exemple, les programmes de représentation obligatoire dont nous parlons ici ont été mis en œuvre à l’échelle nationale en Inde. Alors que Duflo et Chattopdhyay [2004] recherchaient au départ deux États (très différents), Topalova et Duflo [2004] ont étendu l’analyse à tous les grands états de l’Inde.
-
[4]
En réalité, l’effet Hawthorne d’origine s’est produit durant des « expérimentations » menées sur le lieu de travail, et dans des conditions qui n’étaient pas assignées de manière aléatoire.
-
[5]
François Bourguignon et Paul Gertler, à l’époque où ils étaient respectivement Chef Economiste et Chef Economiste du Réseau Développement Humain à la Banque Mondiale, ont joué un rôle clé pour encourager ces évaluations.
-
[6]
Nous discutons de cette littérature dans Banerjee et Duflo [2005]. Pour une réponse plus détaillée à l’argument selon lequel les chercheurs devraient ne plus faire de microestimations car la seule chose qui compte c’est la croissance et que l’utilisation de données agrégées est la seule manière d’estimer les moteurs de croissance, on peut se référer à Banerjee [2008].
1. Introduction
1Au cours des dernières années, on a assisté à une véritable explosion des expérimentations par assignation aléatoire dans le champ de l’économie du développement. A l’automne 2008, à l’occasion de la conférence NEUCD (New England Universities Conference on Development Economics), sur les 112 articles présentés utilisant des données microéconomiques (non comprises les expériences de laboratoire), 24 rendaient compte d’expériences randomisées. En 2004, il y en avait 4. Toujours à l’automne 2008, à l’occasion de la conférence BREAD, la conférence la plus prestigieuse en matière d’économie du développement, 4 des 8 orateurs invités ont présenté des expériences randomisées. Sur les six articles publiés ou à paraître en 2008 dans le Quarterly Journal of Economics qui utilisent des données microéconomiques de pays en développement, 3 sont des expériences randomisées. Et cet enthousiasme n’est pas l’apanage des seuls universitaires. A la Banque Mondiale, pour le seul continent africain, on pouvait recenser en 2008 67 évaluations par assignation aléatoire sur les 89 programmes d’évaluation en cours.
2Une telle progression a inévitablement donné naissance à une vague de critiques – pour la plupart bienveillantes – qui, tout en reconnaissant les avantages des expériences, rappellent qu’elles ne nous permettent pas de répondre à plusieurs questions importantes. Dans l’ensemble, ces critiques ne sont pas nouvelles : la plupart des objections habituelles (ainsi que d’autres plus inhabituelles) sont évoquées dans un article classique de James Heckman [1992].
3Ces critiques ont leur utilité, car – bien que nous ne soyons pas totalement d’accord avec toutes – elles nous ont aidés à définir les forces et les limites des expériences randomisées. Nous maintenons cependant que la plupart d’entre elles ignorent les véritables raisons pour lesquelles l’approche expérimentale a suscité un tel intérêt en économie du développement. Nous avons donc souhaité reprendre ces diverses critiques, à la fois pour les expliciter et les nuancer, mais également pour établir que – par méconnaissance de ce qui est passionnant dans une expérimentation – certains ont tendance à créer des oppositions factices entre les travaux expérimentaux et d’autres formes de recherches.
2. La promesse des expériences
4Tout comme les recherches menées par le passé en économie du travail, de la santé et de l’éducation, la recherche expérimentale en économie du développement tente de résoudre la difficulté qu’il y a à identifier les effets d’un programme face à des chaînes de causalité multiples et complexes. En général, les participants à un programme ne sont pas comparables aux nonparticipants, et nous ne disposons d’aucune information nous permettant de savoir ce qui leur aurait advenu s’ils n’avaient pas participé au programme. Il est donc difficile de séparer l’effet causal du programme (c’est-à-dire, pour un participant donné, la différence entre la situation dans laquelle il se trouve lorsqu’il a bénéficié du programme et celle dans laquelle il se trouverait s’il n’en avait pas bénéficié) de celui d’autres facteurs. L’un des problèmes centraux est celui de la sélection : les participants sont en général systématiquement différents des non participants. Il est bien entendu impossible d’identifier les effets du traitement pour chaque personne individuellement. Mais une expérience randomisée, en faisant varier un seul facteur à la fois (le programme), nous permet d’obtenir une estimation valide de l’effet moyen d’un traitement pour une population donnée (pour une analyse plus détaillée du problème de l’évaluation, voir Heckman et Vytlacil [2008a] ; Imbens et Woolridge [2008]).
5Au milieu des années 1990, le travail expérimental en économie du développement (par exemple Glewwe et al. [2004] ; Banerjee et al. [2005] ; Glewwe et al. [2009]) cherchait à répondre à des questions de base en économie de l’éducation, à savoir : un meilleur accès aux ressources (manuels scolaires, tableaux dans les classes, moins d’élèves par classe) a-t-il un impact sur les résultats scolaires (présence, résultats aux examens), et si oui, dans quelle mesure ?
6Le cadre théorique était donc très simple, ce qui n’a pas empêché ces recherches de produire des résultats surprenants, aussi bien positifs que négatifs. Par exemple, le fait d’améliorer l’accès aux manuels scolaires, en passant d’un manuel pour quatre élèves ou plus, à un manuel pour deux élèves n’a pas d’influence sur les résultats moyens aux examens (Glewwe et al. [2009]). Le fait de diviser par deux le nombre d’élèves par classe n’a pas eu d’effet non plus (Banerjee et al. [2005]). Cependant, au Kenya, une étude portant sur un traitement contre les vers intestinaux (Miguel et Kremer [2004]) a montré qu’un traitement vermifuge coûtant 49 cents par enfant permet de réduire l’absentéisme de 25 %. Ceci est en partie du aux effets de contagion (un enfant traité diminue le risque de contamination d’un enfant non traité). Ainsi, si l’objectif est de réduire l’absentéisme à l’école, le traitement vermifuge est 20 fois plus efficace par dollar dépensé que le recrutement d’un professeur supplémentaire (le coût d’une année supplémentaire d’éducation est de $3,25 pour le traitement vermifuge, contre environ $60 pour le programme des professeurs supplémentaires), même si les deux mesures « marchent » au sens où elles conduisent à une amélioration statistiquement significative de la participation.
7Ces études font clairement apparaître que notre intuition (ou la théorie économique en tant que telle) est un bien mauvais guide du choix entre des programmes concurrents qui visent le même objectif : comment aurions-nous pu deviner a priori que le traitement contre les parasites intestinaux est beaucoup plus efficace que le recrutement d’un professeur supplémentaire ? D’une manière plus générale, dans un bulletin du J-PAL (Laboratoire d’Action contre la Pauvreté Abdul Latif Jameel – 2005), on compare le coût par enfant, d’une année d’éducation supplémentaire induite par les différentes stratégies mises en œuvre. Les coûts varient de +$3,50 pour une année supplémentaire pour le traitement vermifuge, à +$6000/annéesupplémentaire/enfant pour le volet Education Primaire du programme PROGRESA, programme mexicain de transferts sociaux conditionnels. Même si l’on exclut PROGRESA, dont l’éducation n’est pas le seul objectif, le coût par année d’éducation supplémentaire va de $3,25 à plus de $200 d’un programme à l’autre. Le taux de rentabilité des investissements publics est loin d’être égal.
8Ajoutons que les économistes n’étaient pas les seules personnes à ne pas comprendre ce qui se passait : les organisations en charge de la mise en œuvre de ces programmes n’étaient pas mieux informées. Par exemple, l ‘organisation non gouvernementale (ONG) qui finançait les programmes de déparasitage au Kenya était au départ très enthousiaste à l’idée de distribuer aux enfants des uniformes scolaires, alors qu’une évaluation par assignation aléatoire a par la suite montré que le coût par enfant d’un tel projet était de $100 par année d’enseignement supplémentaire.
9Ces expérimentations font émerger plusieurs conclusions importantes. Premièrement, pour élaborer des politiques efficaces, il faut pouvoir juger de l’efficacité de chaque composante d’un programme – et les connaissances a priori ne fournissent pas un guide adéquat. Deuxièmement, il est difficile d’estimer ces différents paramètres à partir de données non expérimentales. La raison en est que celles-ci proviennent souvent de systèmes scolaires qui combinent plusieurs aspects. Cela rend difficile une évaluation de chaque composante. En d’autres termes, les données non expérimentales, à quelques exceptions près, ne fournissent pas de résultats suffisamment rigoureux pour élaborer des politiques, ce qui constitue une motivation importante à mener des expérimentations.
10L’une des conséquences immédiates de cette observation est que, étant donné le coût et le temps demandé par les expériences randomisées, cela vaut la peine de mener plusieurs expérimentations en même temps, sur la même population, afin d’évaluer des variantes potentielles du programme. Par exemple, au Kenya, la Banque Mondiale a attribué des fonds aux Conseils d’établissements afin que les écoles puissent recruter des instituteurs supplémentaires avec des contrats de courte durée, dans le but de diminuer le nombre d’élèves par classe. Lorsque les chercheurs ont travaillé avec les écoles pour organiser l’évaluation du programme, ils ne se sont pas contentés d’appliquer le programme aux établissements sélectionnés de manière aléatoire (Duflo et al. [2008a]). Ils ont introduit deux variations supplémentaires : (a) la formation des Conseils d’établissement percevant les fonds, pour leur permettre de mieux contrôler les enseignants supplémentaires ; et (b) la constitution de classes de niveau. Grâce à ce protocole, les chercheurs sont alors en mesure d’évaluer : l’impact de la réduction de la taille des classes sans que la pédagogie ait été modifiée ; l’efficacité des jeunes instituteurs supplémentaires en contrat de courte durée par rapport à celle des enseignants fonctionnaires, expérimentés et traditionnels ; le rôle que peuvent jouer des Conseils d’établissement dès lors qu’ils sont correctement responsabilisés et l’impact des classes de niveau. Comme dans Banerjee et al. [2005], mais dans un contexte différent, cette étude montre que le seul fait de réduire la taille d’une classe sans apporter d’autres changements n’a pas d’impact significatif. En revanche, un impact positif important est constaté lorsque l’on passe de l’enseignant classique à l’enseignant encontrat de courte durée, et un impact positif et significatif de la diminution de la taille des classes lorsque celle-ci se combine à la responsabilisation du Conseil d’établissement. De plus, pour une taille de classe donnée, cette évaluation montre également combien la répartition des élèves par niveau est importante, tant pour les élèves en difficulté que pour ceux qui réussissent. D’autres exemples d’expérimentations par traitements multiples incluent : des cours de soutien et un apprentissage assisté par ordinateur (Banerjee et al. [2007]) ; diverses stratégies de prévention du sida chez les adolescents (Duflo et al. [2007] ; Dupas [2007]) ; des expérimentations d’information et de mobilisation dans les écoles primaires en Inde (Banerjee et al. [2008a]) ; des facteurs influençant l’offre et la demande pour améliorer les niveaux de vaccination en Inde (Banerjee et al. [2008b]) ; deux stratégies pour aider les fumeurs à arrêter de fumer (Gine et al. [2008]).
11Une autre leçon est que si l’on souhaite construire une base de connaissance exploitable, il est nécessaire d’appliquer un processus d’apprentissage dynamique car les résultats expérimentaux sont souvent surprenants et nécessitent par conséquent d’être explicités. Tel est le processus développé dans les études menées par Duflo et al. [2008c, d] : plusieurs expérimentations portant sur l’utilisation d’engrais ont été menées successivement pendant plusieurs années, chaque résultat ayant déclenché le besoin d’expérimenter une nouvelle intervention afin de mieux comprendre les résultats obtenus dans le cadre de l’expérimentation précédente.
12De plus, pour un apprentissage optimal, il est souvent intéressant de tester d’abord une intervention complexe pour voir s’il existe un effet global, puis, dans l’affirmative, de décomposer l’intervention selon ses différents paramètres afin de comprendre quelles sont les parties du programme qui fonctionnent [1]. Bien souvent, lorsqu’il s’agit d’évaluer des politiques, les expérimentations s’arrêtent à la première étape. Par exemple le célèbre programme mexicain intitulé PROGRESA-Opportunidades combine des transferts sociaux vers les femmes des familles pauvres, sous condition d’un « bon comportement » (par exemple que les femmes investissent dans l’éducation et la santé préventive) ainsi que des améliorations des services de santé et d’éducation. Le programme a été répliqué dans de nombreux pays, souvent accompagné d’une évaluation aléatoire (Fizbein et Schady [2009]). Cependant, la conditionnalité elle-même n’a pas encore été évaluée : ce n’est que dans le cadre d’une étude actuellement en cours au Maroc que l’on a formé et comparé différents groupes de traitement, et qu’ainsi les chercheurs vont pouvoir évaluer son importance. Dans cette expérimentation, un groupe de villages reçoit des transferts purement non conditionnels, un autre groupe reçoit des prestations avec des conditions peu contraignantes (par exemple, le critère d’assiduité n’est contrôlé que par les enseignants) et deux groupes reçoivent des prestations avec des types de conditionnalité plus strictes (dans l’un des groupes, l’assiduité des enfants est supervisée par des inspecteurs, et dans l’autre groupe la vérification estfaite quotidiennement au moyen d’un appareil de lecture des empreintes digitales).
13Bien qu’avec du recul tout ceci semble évident, ce n’est qu’après les premières expérimentations que les chercheurs et les acteurs de terrain ont pu apprécier pleinement l’importance d’un tel protocole. Les associations ont également réalisé qu’il était dans leur intérêt d’établir des relations à relativement long terme avec les chercheurs, de telle sorte que l’expérimentation puisse constituer un processus d’apprentissage continu et que des études intéressantes pour les deux parties puissent être développées. En d’autres termes, nous avons quelque peu délaissé les évaluations ponctuelles dans lesquelles le chercheur se contente d’évaluer un programme spécifique choisi par l’organisation qui le met en œuvre. C’est là une différence importante avec la littérature sur l’évaluation qui existe aux États-Unis ou au Canada où, à quelques exceptions importantes près (par exemple, Angrist et al. [2009]), les programmes à évaluer sont principalement choisis par les institutions responsables de leur mise en œuvre, les chercheurs se voyant confier le seul rôle d’évaluateur.
14Du point de vue des chercheurs, ce nouveau processus leur a donné la possibilité de passer du rôle d’évaluateur à celui de co-expérimentateur. Ainsi, le chercheur se voit proposer de définir la question à laquelle il va falloir répondre, ce qui lui permet de puiser dans le corpus expérimental existant ainsi que dans la théorie. Par exemple, lorsque Seva Mandir, une ONG opérant au Rajasthan en Inde a souhaité améliorer la qualité des écoles qu’elle dirige, l’idée de départ était de mettre en place un programme de motivation des enseignants qui seraient récompensés en fonction des résultats obtenus aux examens. Or, les responsables de Seva Mandir avaient été convaincus par les résultats de l’étude de Glewwe et al. [2003] qui montre que le versement aux professeurs de bonus liés aux résultats des examens peut aboutir à ce que ceux-ci n’enseignent plus que pour les examens, ou à des manipulations à court-terme des résultats. Ils avaient donc décidé de mettre en place un bonus basé sur la présence de l’enseignant. Pour mesurer l’assiduité des professeurs dans des régions très isolées et peu peuplées, dans lesquelles les écoles sont difficiles d’accès, Duflo et Hanna (Duflo et al.[2007]) ont proposé d’utiliser des appareils photo indiquant la date et l’heure. Bien qu’au départ les membres de Seva Mandir aient été surpris par cette proposition, ils décidèrent d’essayer. Dans les écoles du programme (les « écoles appareils photo »), les enseignants prenaient une photo de leurs élèves deux fois par jour (le matin et l’après midi), et leur salaire était calculé en fonction (fonction non linéaire) du nombre de jours de présence. Les résultats ont été étonnants (Duflo et al. [2007]) : l’absentéisme des enseignants est passé de 40 % à 20 % et, dans le même temps, les résultats des élèves se sont améliorés.
15Convaincue par ce système, Seva Mandir a décidé de poursuivre le programme, sans pour autant abandonner l’espoir d’améliorer la motivation intrinsèque des enseignants, tant dans les écoles munies d’appareils photo que dans les autres. Au lieu d’étendre immédiatement le programme « Appareils Photo » à toutes leurs écoles, ils ont décidé de le poursuivre dans les écoles dans lesquelles il était déjà en place et de prendre le temps de tester d’autres programmes, dans les écoles avec ou sans appareil photo.Ils ont travaillé avec Sendhil Mullainathan afin d’identifier des moyens permettant de motiver les enseignants. Une idée a consisté à fournir un carnet à tous les enfants en leur demandant d’y inscrire tous les jours ce qu’ils avaient fait à l’école. Les jours où l’enseignant – ou l’élève – était absent, la page restait blanche ou la date était barrée. Les parents devaient regarder ce carnet une fois par semaine. Les chercheurs espéraient ainsi pouvoir aider les parents à prendre la mesure de l’absentéisme des enseignants et des enfants. Cependant, cette approche a échoué : les parents avaient au départ une si piètre opinion de l’école que la mise en place du carnet a eu plutôt tendance à les persuader que quelque chose de bien s’y passait, quelque soit le nombre de jours d’absence. Les parents des écoles « avec carnet » avaient donc une meilleure opinion de l’école que les parents des écoles « sans carnet », et aucun impact n’a été constaté sur l’assiduité des enseignants. Pour autant, les carnets ont été très appréciés par les élèves et par les professeurs et le fait de les utiliser a poussé les enseignants à travailler plus. Les résultats aux examens se sont améliorés dans les écoles « avec carnet ». Il apparaît donc que si les carnets ont échoué en tant qu’outil permettant d’améliorer l’assiduité des enseignants, ils se sont révélés utiles en tant qu’outil pédagogique. Dans la mesure où cette hypothèse n’avait pas été envisagée dans le protocole expérimental de départ, il est possible que ces résultats ne soient qu’un accident statistique. C’est la raison pour laquelle Seva Mandir va désormais mettre des appareils photo en place dans toutes ses écoles (après plusieurs années, ils continuent à avoir un impact important sur l’assiduité et sur les résultats aux examens), tout en menant de nouvelles expérimentations avec des carnets afin de voir si les résultats pédagogiques persistent.
16Une conséquence importante de ce processus a été la prise de conscience croissante, au sein de la communauté scientifique, du fait que l’un des éléments les plus importants de l’approche expérimentale est sans doute de pouvoir faire varier les paramètres d’un traitement d’une manière aidant à répondre à des questions conceptuelles (et pertinentes d’un point de vue politique) auxquelles il n’était pas possible de répondre de manière fiable par d’autres moyens [2]. Berry [2008] présente une illustration intéressante. Les incitations basées sur l’assiduité et sur les résultats sont très répandues, mais on ne sait pas clairement si ces incitations doivent cibler les enfants (comme dans les programmes évalués par Angrist et al. [2008] et par Angrist et Lavy [2009]) ou les parents (comme dans Kremer et al. [2007]). Si les parents étaient capables de motiver les enfants, ce choix n’aurait pas d’importance, mais dans le cas contraire, il est possible qu’il soit très important. C’est pour répondre à cette question que Berry a conçu un programme dans les bidonvilles de Delhi, où les élèves ou leurs parents recevaient des incitations (des jouets pour les enfants ou de petites sommes d’argent pour les parents) selon les progrès de l’enfant en lecture. Les résultats suggèrent que pour les enfants initialement très en retard, les récompenses dirigées vers eux sont plus efficaces, alors que c’est l’inverse chez les enfants initialement à l’aise à l’école. Sans expérience, répondre à cette question aurait été impossible.
17Ainsi, les expérimentations sont-elles en train d’apparaître comme un outil puissant pour tester des théories. Bien que les théories à vérifier soient différentes, la motivation qui ressort des articles récents en économie du développement est la même que celle qui sous-tendait la première génération d’expérimentations aux États-Unis, conçues pour identifier des paramètres précis (par exemple, le revenu et l’effet de substitution dans des expérimentations d’impôts négatif ( « negative income tax »), le risque moral dans l’expérimentation sur l’Assurance Santé – « Rand Health Insurance Experiment » –, etc.). Les interventions sont conçues et évaluées non seulement pour montrer l’effet moyen du traitement d’une politique spécifique d’un programme, mais également pour permettre l’identification de paramètres économiques précis. A titre d’exemple, prenons l’étude réalisée par Karlan et Zinman [2005] en collaboration avec un institut de crédit en Afrique du Sud. Cet institut consent des prêts de faibles montants à des taux d’intérêt élevés à des emprunteurs présentant un niveau de risque élevé. L’expérimentation a été conçue pour tester les poids relatifs de la charge de remboursement ex post (y compris l’aléa moral) et de l’anti-sélection ex antepar rapport aux défauts de remboursement. Par l’intermédiaire d’un premier courrier, des emprunteurs potentiels, présentant le même niveau de risque observable, se sont vu proposer de manière aléatoire soit un taux d’intérêt élevé, soit un taux d’intérêt bas. Ensuite, ces emprunteurs potentiels décidaient ou non d’emprunter au taux qui leur était proposé. Parmi ceux ayant sollicité un prêt au taux le plus élevé, la moitié s’est vue proposer – de manière aléatoire – un taux d’intérêt plus bas que le taux d’appel ; l’autre moitié a poursuivi au taux initialement proposé. Les emprunteurs ne savaient pas ex ante que le taux contractuel pourrait être différent du taux d’appel. Les chercheurs ont ensuite comparé les comportements des emprunteurs de ces trois groupes. La comparaison entre ceux ayant répondu à l’offre à taux d’intérêt bas et ceux ayant répondu à l’offre à taux d’intérêt élevé parmi ceux qui, au final, paie un taux d’intérêt faible, permet d’identifier l’effet d’anti-sélection. En comparant ceux s’étant vu initialement proposer des taux élevés mais ayant obtenu des taux contractuels différents, on identifie l’effet du poids du remboursement.
18L’étude a mis en évidence le fait que les femmes présentent un risque lié à l’anti-sélection mais que les hommes présentent un risque lié à l’aléa moral. Cette différence inattendue a posé un problème aux auteurs de l’article (s’agissait-il d’un hasard statistique ou d’un phénomène réel ?), mais la contribution méthodologique n’a pas été remise en question. L’idée de départ consistant à faire varier les taux d’intérêt ex post et ex ante afin d’identifier effet de sélection et effet de traitement a depuis été reproduite dans plusieurs études. Ashraf et al. [2007] et Cohen et Dupas [2007] l’ont utilisée pour comprendre la relation entre le prix payé pour un bien utile à la santé et son utilisation. L’augmentation du prix pourrait avoir un effet sur l’usage,en raison d’un effet de sélection (ceux qui achètent plus cher sont plus intéressés) ou à cause d’une illusion psychologique : un bien payé plus cher vaut plus cher (le « psychological sunk cost effect »). Pour différencier ces effets, les chercheurs ont affecté de manière aléatoire le prix proposé ainsi que le prix effectivement payé. L’effet qu’a le prix proposé sur le maintien du prix réel à un niveau fixe permet d’identifier l’effet de sélection, alors que la variation du prix réel (en maintenant le prix proposé fixe) permet de mettre en lumière l’effet psychologique du prix. Ashraf et al. [2007] l’ont étudié dans le cas d’un produit de purification de l’eau, et Cohen et Dupas [2007] se sont penchés sur le cas des moustiquaires. Ni l’une ni l’autre de ces études n’a mis en évidence un effet psychologique du prix. La variation expérimentale était essentielle ici, et pas uniquement afin d’éviter les biais : en dehors d’une expérience, nous n’observons tout simplement pas de personnes confrontées à des prix d’appel différents et des prix réels identiques. Ce type d’expérimentations nous rappelle les motivations des premières expérimentations sociales (comme par exemple l’expérimentation de l’impôt sur le revenu négatif) qui cherchaient à obtenir des variations distinctes des revenus et des salaires afin d’estimer le revenu et de mettre en lumière des effets de substitution qui ne pouvaient être obtenus à partir de données non expérimentales (Heckman [1992]).
19Les expériences qui étudient les produits de « self control », qui aident les consommateurs à se contrôler eux-mêmes, sont d’autres exemples de projets motivés par la théorie économique. Ainsi, Ashraf et al. [2006] ont travaillé aux Philippines, avec une institution de micro-finance, pour proposer à leurs clients un produit d’épargne qui les engagent à conserver leurs économies sur un compte bloqué pour une certaine durée ou jusqu’à un certain montant, sans aucun avantage en termes de taux d’intérêt. Gine et al. [2008] ont travaillé avec la même organisation et ont invité des fumeurs souhaitant arrêter de fumer à passer un contrat avec eux-mêmes : ils déposaient de l’argent sur un compte spécial et ils perdaient cet argent si, au bout de plusieurs semaines, leur test d’urine se révélait positif à la nicotine. Dans les deux cas, les protocoles ont été conçus par des économistes en vue de résoudre des problèmes de la vie réelle, mais ils s’accompagnaient également d’une forte motivation théorique. Comme il s’agissait d’idées nouvelles émises par des chercheurs, l’utilisation de l’évaluation par assignation aléatoire allait de soi pour tester si ces produits étaient potentiellement utiles pour les consommateurs avant de les introduire à grande échelle.
20Les exemples que nous venons d’évoquer portent sur des comportements individuels, mais les expérimentations peuvent aussi permettre de comprendre la manière dont fonctionnent les institutions. C’est ce qu’ont fait Bertrand et al. [2009] : ces chercheurs ont mis sur pied une expérimentation pour comprendre la structure de la corruption dans le processus d’obtention du permis de conduire à Delhi. Ils ont recruté des personnes qui souhaitaient passer le permis de conduire et les ont réparties en trois groupes : dans le premier groupe, les gens recevaient un bonus s’ils obtenaient leur permis de conduire rapidement, dans le second groupe, des leçons de conduite gratuites ont été offertes, le troisième groupe constituait le groupe de comparaison. Les chercheurs ont constaté que les personnes du groupe « bonus » obtenaient leur permis de conduire plus rapidement que ceux quiétaient dans le groupe « leçons gratuites ». Ils ont également découvert que les personnes du groupe « bonus » étaient plus susceptibles de payer un agent pour obtenir leur permis (agent qui, semble-t-il, paye à son tour un fonctionnaire). Ils ont également découvert qu’il y avait peu de chances que les candidats ayant payé un agent aient réellement passé l’examen de conduite avant d’obtenir leur permis. Bien que les personnes du groupe « bonus » obtenant leur permis rapidement ne conduisent pas systématiquement moins bien que les personnes du groupe de comparaison (ce qui serait un test décisif démontrant que la corruption se traduit par une attribution inefficace des permis de conduire), cette expérimentation fournit des éléments qui suggèrent que dans ce cas, la corruption fait plus que « graisser les rouages » du système.
21La créativité des chercheurs a également été aiguillonnée par la prise de conscience que l’expérimentation est une option facilement accessible. En principe, il n’existe pas de lien automatique entre la collecte attentive et innovante de données microéconomiques et la méthode expérimentale. Et de fait, il existe une longue tradition en économie du développement consistant à collecter des données de façon spécifique pour tester des théories. La quantité et la qualité des données microéconomiques collectées en économie du développement ont explosé au cours des dernières décennies, et pas uniquement dans le contexte des expérimentations. Néanmoins, la méthode expérimentale encourage le développement de méthodes de collection de données originales : contrairement aux grandes bases de données traditionnelles, les échantillons sont faibles (les coûts restent donc limités), et les questions posées sont très spécifiques. Dans de nombreuses études expérimentales, une grande partie des personnes censées être affectées par le programme le sont réellement. Cela permet de travailler sur des échantillons de taille réduite, avec des questionnaires spécifiques. Il devient donc faisable de dépenser plus d’argent par variable et par observation que dans des grandes enquêtes polyvalentes auprès des ménages ou des entreprises. A l’inverse, les données non expérimentales doivent souvent compter avec des variations (changement de politique, variations induites par le marché, variations naturelles, bouleversements au niveau de l’offre, etc.) qui affectent des populations importantes, nécessitant donc l’utilisation de bases de données très importantes, et qui, bien souvent, ne sont pas collectées dans un but spécifique. Il est par conséquent plus difficile d’ajuster la mesure à une question donnée. Même lorsqu’il est possible de mener ex post un exercice sophistiqué de collecte de données, en ciblant spécifiquement une question donnée, il est généralement impossible de le faire pour une enquête de « baseline ». Ceci empêche donc l’utilisation d’une stratégie de type différence-en-différence, qui est souvent essentielle pour les données non expérimentales.
22Une étude menée par Olken [2007] illustre le type de données qu’il est possible de collecter dans un contexte expérimental. L’objectif était de déterminer si des audits ou des contrôles menés par les communautés étaient efficaces pour réduire la corruption dans des projets décentralisés de construction. Il était donc nécessaire d’obtenir une mesure fiable des niveaux de corruption. Olken, se focalisant sur la construction des routes, a fait faire par des ingénieurs des sondages dans les chaussées construitesafin de mesurer la quantité de matériaux utilisée, pour la comparer aux quantités déclarées par les entreprises. La différence entre les deux mesure la quantité de matériaux volés, ou jamais achetés mais facturés, et constitue donc une mesure objective de la corruption. Olken a ensuite démontré que la menace de contrôles permet de réduire la part de ressources manquantes mais que, sauf circonstances particulières, les encouragements en faveur d’une plus grande participation aux réunions communautaires n’ont que peu d’effet.
23On trouve un autre exemple innovant de collecte de données dans Beaman et al. [2009]. L’article évalue l’impact d’une représentation obligatoire des femmes dans les conseils municipaux sur les attitudes des citoyens vis à vis des femmes leaders. Il s’agit d’une expérimentation par assignation aléatoire car les villages « réservés aux femmes » ont été sélectionnés de manière aléatoire, par la loi : dans ces villages, seules des femmes pouvaient être élues à la tête du village. Pour obtenir une mesure de la préférence pour les femmes leaders qui ne soit pas contaminée par le désir de la personne interrogée de faire plaisir à l’enquêteur, les chercheurs ont utilisé des « tests d’associations implicites » élaborés par des psychologues (Banaji [2001]). Bien que ces tests soient utilisés couramment par les psychologues, et qu’ils soient recommandés par les économistes (Bertrand et al. [2005]), ils n’avaient pas encore été utilisés sur le terrain dans un pays en développement. Par ailleurs, il n’existait pratiquement aucune étude essayant de comprendre si de tels préjugés sont solidement ancrés ou s’ils peuvent être affectés par l’environnement. L’étude a également mis en œuvre une autre mesure du biais implicite vis à vis des femmes, mesure inspirée par les chercheurs en sciences politiques. On a demandé aux personnes enquêtées d’écouter un discours, qui avait réellement été prononcé par un chef de village ; ce discours a été enregistré soit par un homme, soit par une femme ; il était ensuite demandé aux participants, sélectionnés de manière aléatoire pour écouter l’un ou l’autre discours, de donner leur opinion sur ce qu’ils avaient écouté. La différence dans les notes données par ceux ayant écouté la voix masculine et ceux ayant écouté la voix féminine mesure la discrimination statistique envers les femmes. L’article compare ensuite cette mesure de la discrimination dans les villages « réservés » et dans les villages « non réservés ».
24Il ne s’agit là que de deux exemples puisés dans une littérature très riche. De nombreuses expérimentations de terrain intègrent de petites expérimentations de laboratoire (jeu du dictateur, choix par tirages au sort, expérimentations sur les taux de remise, jeu du bien public, etc.). Par exemple, dans leur évaluation du programme de transferts sociaux conditionnels mis en place en Colombie, les chercheurs de l’Institut des Etudes Fiscales ont inclus des jeux du bien public, le partage des risques et la formation de coalitions dans le cadre de leurs travaux de collecte de données (Attanasio et al.[2008a]).
3. Les questions soulevées par ces expériences
25Comme nous l’avons déjà indiqué, les questions soulevées par les expérimentations ne sont pas nouvelles. Cependant, nombre de ces questions se basent sur une comparaison, implicite ou explicite, entre la méthode expérimentale et d’autres méthodes cherchant à comprendre la même chose. Le message que nous avons essayé de faire passer dans les paragraphes précédents est que le principal avantage des expérimentations consiste sans doute à nous permettre l’accès à un terrain où les approches non expérimentales sont impossibles. Dès lors, les objections soulevées par les critiques de la littérature expérimentale sont à prendre comme des mises en garde envers la surinterprétation des résultats expérimentaux. Cependant, il existe également des cas dans lesquels les deux approches, expérimentale et non expérimentale, sont envisageables, sous des formes relativement comparables. Le problème consiste alors à savoir quelle approche adopter. Par ailleurs, certains s’inquiètent de savoir ce que les expérimentations apportent au domaine de l’économie du développement. Dans ce chapitre, nous allons dresser la liste de ces objections et les reprendre l’une après l’autre. On notera que, bien que certains de ces problèmes soient spécifiques aux expérimentations (nous le signalerons au fur et à mesure), la majeure partie d’entre eux (validité externe, différence entre équilibre partiel et effets d’équilibre du marché, non identification de la distribution de l’effet) sont communs à toutes les évaluations microéconomique, que l’on ait recours à des méthodes expérimentales ou non. Ces problèmes sont fréquemment mis en avant au sujet de la méthode expérimentale ; cela s’explique sans doute par le fait que la plupart des autres soucis habituels sont réglés par l’assignation aléatoire.
3.1. La dépendance à l’environnement
26La dépendance à l’environnement est un élément clé de la possibilité de généralisation (ou de la validité externe). La question posée est la suivante : obtiendrions-nous le même résultat si nous menions la même expérimentation dans un contexte différent ? Ou plus exactement, le programme qui est en cours d’évaluation aurait-il les mêmes effets s’il était mis en œuvre ailleurs (et pas dans le cadre d’une expérimentation) ?
27En réalité, nous avons là deux questions distinctes : premièrement, bien évidemment, nous devons nous inquiéter de l’impact des différences dans l’environnement sur l’efficacité du programme évalué. L’une des vertus de l’expérimentation est qu’elle nous donne la possibilité d’évaluer l’effet moyen du programme pour une population spécifique, sans partir de l’hypothèse selon laquelle l’effet du programme est constant d’un individu à un autre. Mais si l’effet n’est pas constant d’un individu à un autre, il est alorssusceptible de varier systématiquement en fonction des variables de contrôle. Par exemple, une distribution d’uniformes scolaires n’aura certainement pas le même impact en Norvège et au Kenya. La question est de savoir où placer la barre : le Mexique s’apparente-t-il plus à la Norvège ou au Kenya ? Le même problème se pose également au sein d’un même pays. Très clairement, un raisonnement a priori nous aide peu – le raisonnement économique de base pose que la distribution d’uniformes n’aura d’effet que pour les populations dont le revenu moyen n’est pas très élevé par rapport au prix des uniformes – mais où se situe « pas très élevé » ? Si nos théories sont suffisamment précises pour nous permettre de le savoir, ou si nous posons le principe qu’elles le sont, alors nous n’avons sans doute plus besoin d’expérimentations : la théorie suffit à nous donner une idée de qui aura tendance à obtenir un uniforme ou non, et nous pourrons utiliser cette restriction pour évaluer de manière convaincante les modèles structurels portant sur l’impact de la distribution d’uniformes scolaires. En d’autres termes, sans hypothèses, les résultats d’une expérimentation ne peuvent être généralisés au-delà de leur contexte, mais avec suffisamment d’hypothèses, les données non expérimentales peuvent suffire. Pour justifier l’expérimentation, nous devons nous placer au milieu du gué.
28La deuxième question, sans doute plus spécifique aux expérimentations menées dans le domaine de l’économie du développement (et souvent par des ONG), concerne l’effet lié à celui qui met en œuvre le programme. En effet, plus l’organisation est petite et plus les chances d’obtenir des effets qui ne reflètent que ses caractéristiques propres sont élevées. Ce risque peut être partiellement atténué si l’on se penche avec attention sur la façon dont le programme est mis en œuvre, et particulièrement sur la place du programme évalué dans le plan d’action global de l’organisation (par exemple, quelle est la taille du programme évalué par rapport à toutes les actions menées par l’organisation ? Comment l’équipe de terrain a-t-elle été sélectionnée ? Qui a décidé du choix du lieu ?). Pour que les résultats soient plus qu’une démonstration de possibilité, il faut que le programme soit suffisamment bien défini et bien compris pour que sa mise en œuvre puisse être facilement déléguée à un grand nombre d’équipes de terrain plus ou moins autonomes.
29Néanmoins, tout ceci reste très vague et très subjectif (Qu’est-ce qu’un grand nombre ? Qu’est-ce qu’une équipe suffisamment autonome ?). La seule façon de s’assurer de la généralité d’un résultat est de mener des expérimentations supplémentaires dans des lieux différents, avec des équipes différentes. Si la théorie nous aide à prévoir quels types d’effets sont attendus dans tels types de milieux, il est judicieux de conduire des expériences dans ces différents milieux.
30Plusieurs études ont ainsi été dupliquées dans des contextes différents. Le programme de soutien scolaire, le balsakhi évalué par Banerjee et al. [2007] a été évalué à deux endroits différents (à Bombay et à Vadodara), avec deux équipes de terrain distinctes (toutes deux membres du réseau Pratham, mais totalement différentes au niveau de leur management). Les résultats se sont avérés relativement cohérents. De la même manière, en combinant déparasitage et distribution de complément en fer, Bobonis et al. [2006] ont obtenu un impact sur l’assiduité à l’école dans le nord de l’Inde similaire àcelui que Miguel et Kremer [2004] ont trouvé au Kenya [2004]. Bleakley [2007] trouve des résultats similaires dans son étude du déparasitage au Sud des États Unis au début du vingtième siècle. Le programme PROGRESA/Opportunidades a été répliqué sous différents noms et avec quelques variantes dans de nombreux pays. Dans plusieurs d’entre eux, il a été accompagné d’évaluations aléatoires (en Colombie, au Nicaragua, en Equateur et au Honduras ; des opérations sont en cours au Maroc) (Pour plus d’informations sur l’évaluation du programme PROGRESA d’origine et sur ses duplications, lire Fizbein et Schady [2009]). Les résultats, analysés par différentes équipes de chercheurs dans plusieurs pays sont remarquablement similaires d’un pays à l’autre.
31D’autres résultats sont au contraire différents d’un contexte à l’autre. Une campagne d’information et de mobilisation des Conseils de parents d’élèves a eu un impact positif sur les résultats d’apprentissage au Kenya, mais non en Inde (Banerjee et al. [2008] ; Duflo et al. [2008a]). Une intervention similaire ayant pour objectif de redynamiser les Comités de gestion des centres de santé en Ouganda a également eu un impact très important sur des paramètres sur lesquels il est habituellement difficile d’influer, tels que la mortalité infantile (Bjorkman et Svensson [2007]).
32Outre les duplications pures, des expérimentations similaires menées dans des contextes différents sont autant de moyens permettant d’accumuler des connaissances. L’analyse faite par Holla et Kremer [2008] de 16 évaluations aléatoires portant sur l’élasticité des prix dans les domaines de la santé et de l’éducation en est un bon exemple. Nous reviendrons plus loin de manière détaillée sur ces résultats mais le point clé ici est que ces expérimentations recouvrent une large palette de biens de santé et de biens d’éducation dans plusieurs pays. Un point commun important est la très forte élasticité de la demande pour ces biens selon leur prix, en particulier lorsque le prix se situe près de zéro (à la fois dans le sens positif et dans le sens négatif). Bien qu’il ne s’agisse pas de duplication au sens strict, ces études révèlent toutes le même phénomène fondamental.
33Certains craignent que le système universitaire encourage peu la réplication des expérimentations : les revues seraient moins susceptibles de publier les résultats de la cinquième évaluation sur un même sujet, et les agences internationales seraient réticentes à les financer. L’utilisation généralisée de l’expérimentation en économie est très récente et il est donc difficile d’estimer la gravité de ce problème. Mais compte tenu, par exemple, du nombre de publications sur les bénéfices de l’éducation, nous ne sommes pas trop pessimistes : il semble que les revues n’ont pas de problèmes particuliers à publier plusieurs études sur le même sujet. La bonne nouvelle est que plusieurs initiatives de duplication systématique sont en cours. Par exemple, un programme de transfert d’actifs et de formation ciblant les ultra-pauvres, qui avait été initialement conçu au Bangladesh par l’ONG BRAC (programme décrit en détail ci-après), est actuellement en cours d’évaluation au Honduras, au Pérou, dans les états du Karnataka et du Bengale Occidental, au Bangladesh et au Pakistan. Dans chaque pays, on trouve une équipe de recherche distincte et un partenaire de terrain différent. Des études sur la sensibilité au taux d’intérêt, dupliquant l’expérimentation de Karlan et Zinman [2008], sont actuellement en cours au Ghana et au Pérou(en deux lieux distincts, avec deux partenaires différents). Des évaluations d’impact du microcrédit sont menées simultanément au Maroc, en Inde, aux Philippines et au Mexique. Une formation commerciale est en cours d’évaluation au Pérou, en République Dominicaine, en Inde et au Mexique. Plusieurs programmes visant à encourager l’épargne sont en train d’être évalués au Pérou, aux Philippines, au Ghana et en Ouganda. Ainsi, il semble que les agences internationales ont un intérêt suffisant pour ces expérimentations pour accepter de les financer et qu’il y a suffisamment de chercheurs qui aient envie de les mener. Par exemple, les nombreuses expérimentations en cours concernant les populations ultra-pauvres sont toutes financées par la Fondation Ford, dans une volonté explicite de mieux comprendre le programme en l’évaluant dans plusieurs endroits différents. C’est l’ONG Innovations for Poverty Action (ONG fondée par Dean Karlan), qui est à l’origine de nombre de ces duplications et qui reçoit les financements, mais les équipes de recherche et les partenaires de terrain sont différents dans chaque pays. Les différentes équipes de recherche se concertent sur les stratégies d’évaluation et sur les instruments afin de s’assurer que des résultats différents représenteront bien des différences au niveau des contextes plutôt que des différences au niveau des stratégies d’évaluation.
34Toutes ces études sont en cours et leurs résultats nous permettront d’en apprendre beaucoup plus sur les conditions dans lesquelles les programmes sont dépendants du contexte. Des tests systématiques seront nécessaires afin de voir si les résultats diffèrent d’un site à l’autre. Les enseignements de la recherche sur les effets des traitements hétérogènes, dont nous allons parler ci-dessous, peuvent être utiles : premièrement, les variables indicatrices de site peuvent être traitées comme des variables de contrôle dans le cadre d’une régression et des tests non paramétriques de l’hétérogénéité peuvent être réalisés (voir, par exemple, Crump et al. [2009]). Si hétérogénéité il y a, alors un test plus puissant consisterait à voir si l’hétérogénéité persiste après que l’on a pris en compte l’hétérogénéité des variables de contrôle. Une autre manière de procéder consiste à mener un test pour voir si l’effet de traitement conditionné aux variables de contrôle est égal pour toutes les variables indicatrices de site (Heckman et al. [2010]).
35En principe, si nous étions prêts à mener suffisamment d’expérimentations, dans des lieux suffisamment variés, nous pourrions apprendre tout ce que nous souhaiterions savoir sur la distribution des effets d’un traitement d’un site à un autre, en prenant en compte n’importe quel ensemble de variables de contrôle. Cela n’est pas le cas des études non expérimentales. Bien qu’il soit possible d’identifier une quasi-expérimentation particulière qui permettrait d’identifier l’effet d’un programme dans un contexte précis, il est très improbable qu’une telle quasi-expérimentation puisse être répliquée dans autant de contextes différents qu’on le souhaiterait. Dans les cas des études non expérimentales, on doit supposer que les hypothèses d’identification sont valides dans toutes les études pour pouvoir les comparer. Si plusieurs études non expérimentales donnent des résultats différents, une explication possible est que l’une d’entre-elles – ou plusieurs – est (sont) biaisée (s) (ce principe sous-tend les tests de validité des variables instrumentales basés sur la « sur-identification » ( « overidentification tests »).
36L’idée a été proposée – voir par exemple Rodrik [2008] – que la dépendance environnementale pose moins de problèmes pour les études non expérimentales car celles-ci couvrent des domaines beaucoup plus larges, ce qui permet de les généraliser plus facilement [3]. Il y aurait donc un choix à faire entre les études par assignation aléatoire dont la validité interne est forte, et les études non expérimentales dont la validité externe est plus grande. Pourtant, cela n’est pas nécessairement vrai. Une partie du problème est de savoir ce que l’on veut dire par effet généralisable : cela signifie que si l’on mène la même action dans un lieu différent, on obtiendra le même résultat. Mais de quelle action et de quel résultat parlons-nous ? Dans le cadre d’études transversales dans lesquelles on compare, par exemple, différents types d’investissements, il faut croire au fait que l’action a été la même et que l’on a mesuré les résultats de la même façon et il faut faire confiance au jugement de ceux qui ont construit l’ensemble des données et rassemblé un certain nombre de programmes dans une catégorie générale. Par exemple, la catégorie « Investissements dans l’éducation » peut signifier beaucoup de choses différentes. La conclusion généralisable de l’étude est donc, au mieux, l’impact de la moyenne de l’ensemble des choses que l’on a regroupées lorsqu’on a construit les données agrégées, ce qui ne veut pas forcément dire grand chose.
37Un problème plus subtil se pose lorsque l’on évalue des programmes bien définis. Le fait que pour l’évaluation du programme on utilise les données d’une large zone géographique ne signifie pas nécessairement que l’estimation de l’effet du programme obtenu sera la moyenne des effets du programme sur tous les types de personnes vivant dans cette zone importante (ou sur toutes les personnes qui sont les participants probables du programme). Pour estimer l’effet d’un programme en l’absence d’expérience, on tente de contrôler chaque différence observable entre les personnes bénéficiant du programme et celles qui ne le sont pas ; par exemple, par un appariement statistique ( « matching »). Mais dans l’échantillon apparié, il n’y a pas de garantie qu’on trouve un « match » dans le groupe non traité pour toutes les observations du groupe traité. Il existe plusieurs méthodes qui permettent de gérer cette absence de chevauchement entre la distribution des participants et des non participants (Heckman et al. [1997, 1998] ; Rubin [2006] ; Imbens et Woolridge [2008]) mais, dans tous les cas, l’évaluation sera entièrement motivée par les sous-groupes de la population où, même après l’appariement, il reste à la fois suffisamment de participants et de non participants, et ces sous-groupes pourraient ne pas être représentatifs de la population dans son ensemble. Nous pouvons comparer les caractéristiques observables de la population sur laquelle on a estimé l’effet du traitement à celles de la population dans son ensemble, mais nous n’avons aucun moyen de savoir comment ces personnes diffèrent du reste de la population, pour ce qui est des caractéristiques non observables. Imbens et Woolbridge [2008] concluent ainsi que « ce qui caractérise potentiellementtoutes ces méthodes [qui améliorent les chevauchements entre participants et non participants] c’est qu’elles modifient ce qui est évalué… cela se traduit par une diminution de la validité externe mais il est vraisemblable que cela augmente la validité interne ». Ainsi, le compromis entre validité interne et validité externe est également présent dans les études non expérimentales. Il est bien connu (voir Imbens et Angrist [1994]) que c’est également vrai pour les évaluations avec variables instrumentales : les participants pour lesquels les effets du programme sont identifiés (les « compliers ») peuvent constituer un petit sous-ensemble non représentatif de la population d’intérêt. Dans une expérience, si les taux de participation des personnes choisies pour le groupe de traitement restent élevés, nous savons que la population affectée est au moins représentative de la population choisie pour l’expérimentation.
38Heckman introduit la notion de « biais de randomisation » : une impossibilité à généraliser les résultats d’une expérience qui viendrait du fait même de la randomisation ; le fait que l’on évalue le programme en ayant recours à une évaluation aléatoire modifie la manière dont les acteurs se comportent. L’une des formes de ce biais est l’effet Hawthorne ou l’effet John Henry : le comportement des individus des groupes traité ou témoin change car ces individus savent que le programme est en train d’être évalué. Bien que l’estimation de l’effet du programme puisse être valide d’un point de vue interne, sa pertinence est alors limitée en dehors de l’expérimentation (Heckman et Vytlacil [2008b]). Toutefois, les effets Hawthorne constituent un problème quel que soit le contexte à partir du moment où l’on étudie des participants. Ils ne sont pas spécifiques à l’expérimentation en tant que telle [4]. Les chercheurs en sciences sociales s’inquiètent du biais lié à l’interview (par exemple parce que les gens souhaitent donner une certaine impression à l’enquêteur).
39Une autre forme plus subtile de biais lié à l’assignation aléatoire est présentée par Heckman [1992]. Il constate que, dans l’expérimentation du programme de formation professionnel JTPA, tous les sites n’ont pas accepté de participer et que certains sites en particulier ont spécifiquement refusé l’expérimentation à cause de l’assignation aléatoire. Il se peut que ces sites soient différents. Dans le domaine de l’économie du développement, les expérimentations tendent à être menées avec divers partenaires mais il est vrai que toutes les ONG ou tous les gouvernements ne sont pas volontaires pour participer à des évaluations aléatoires. Si les évaluations aléatoires ne peuvent être menées que dans des sites spécifiques ou qu’avec certains partenaires particuliers, c’est précisément parce qu’elles sont aléatoires et que les partenaires ne l’acceptent pas tous. Dans de nombreux sites, la duplication ne permet pas de faire disparaître le problème. Il s’agit là d’une objection de taille (étroitement liée au problème de participation dont nous parlerons plus bas) – à savoir le problème de la participation au niveau de l’organisation – et il s’agit-là d’une critique difficile à réfuter dans la mesure où les données – quel que soit leur nombre – ne seront jamais suffisantespour nous rassurer totalement sur l’absence de ce problème. Cela dit, notre expérience suggère que, dans le contexte des pays en développement, ce problème tend à disparaître car les évaluations aléatoires sont de mieux en mieux acceptées, et les partenaires se multiplient. La situation va continuer de s’améliorer si les évaluations aléatoires sont recommandées par les donateurs dans la mesure où les partenaires se diversifieront encore davantage.
40C’est déjà ce qui est en train de se passer. De nombreux chercheurs et acteurs de terrain de la Banque Mondiale travaillent notamment avec les gouvernements de pays en développement en vue de lancer un ambitieux programme d’évaluation [5]. Par exemple, l’Initiative Africa Impact Evaluation soutient (financièrement et techniquement) plusieurs gouvernements africains pour la mise en place, en Afrique, d’évaluations aléatoires sur différents sujets. A l’heure actuelle, 67 évaluations aléatoires sont en cours dans le cadre de ce programme et couvrent 5 thèmes : l’éducation, la lutte contre le paludisme, la lutte contre le sida, la gouvernance et les transports. AGEMAD est une évaluation récente menée dans ce cadre : il s’agit d’une initiative visant à réformer l’école à Madagascar (Banque Mondiale [2008]). Ce projet démontre la volonté et la capacité d’un Ministère de l’Education à mettre en œuvre une évaluation aléatoire dès lors qu’il reçoit le soutien et les encouragements nécessaires de la part d’une grande agence de financement.
41A notre avis, le fait que les partenaires qui mènent des évaluations aléatoires se distinguent par leur volonté et leur capacité à suivre un protocole constitue un problème plus délicat que l’adhésion à la randomisation. En effet, il est possible que ces caractéristiques n’existent plus lorsque les projets seront développés à une plus grande échelle. Il est important d’avoir conscience de ces limites lorsque l’on interprète les résultats. Jusqu’à présent, insuffisamment d’efforts ont été consacrés à réaliser des évaluations « à moyenne échelle » de programmes qui avaient bien fonctionné à petite échelle ; c’est pourtant là que ces problèmes de mise en œuvre apparaîtraient de manière évidente.
42Cela dit, cette difficulté n’est pas non plus totalement absente des études non expérimentales, en particulier dans les pays en développement. Les programmes ne peuvent pas tous être évalués de manière convaincante. On a souvent besoin de bases de données importantes (notamment si l’on veut améliorer la validité externe en étudiant un programme national). Dans certains cas, les données sont collectées spécifiquement pour l’évaluation, souvent avec l’aide du Bureau National des Statistiques du pays concerné. Dans ce cas, il faut que le pays accepte l’évaluation d’une politique à grande échelle, ce qui est politiquement plus sensible que lorsqu’il s’agit de programmes pilotes, beaucoup moins visibles ; ainsi, les pays peuvent sélectionner les programmes à évaluer de manière stratégique. Dans certains cas, il est possible d’utiliser des enquêtes régulières, à grande échelle (comme le National Sample Survey en Inde, l’enquête SUSENAS en Indonésie, etc.).Mais de tels dispositifs n’existent pas dans tous les pays en développement, bien que des bases de données telles que les Enquêtes de Santé et Démographiques ( « Demographic and Health Surveys ») qui sont disponibles dans la plupart des pays aient certainement amélioré les choses. Ainsi, ni les pays ni les programmes qui peuvent être évalués avec des données non expérimentales ne sont choisis au hasard. La difficulté de généraliser les résultats d’une étude donnée est donc toujours potentiellement présente, quelle que soit les approches employées.
3.2. Questions de participation
43Un taux de participation élevé facilite l’interprétation de l’estimation des variables instrumentales des estimations du « traitement sur le traité » ( « treatment on the treated ») et donc la généralisation des résultats à d’autres environnements. En économie du développement les expérimentations ont souvent été randomisées au niveau de lieux ou de groupes (villages, quartiers, écoles) dans lesquels les acteurs de terrain peuvent raisonnablement penser qu’ils seront en mesure de mettre le programme en œuvre. Le taux de participation des sites à l’expérience est donc élevé, souvent de 100 %. L’échantillon traité sera donc vraisemblablement un sous-ensemble aléatoire de l’ensemble de lieux sélectionnés pour le programme. Si le programme est ensuite volontaire, les bénéficiaires ne sont pas choisis au hasard, mais leur sélection reflète ce que l’on observerait si la politique était généralisée, ce qui rend l’estimation de l’effet de traitement sur les traités pertinente.
44Heckman [1992] s’est penché sur l’interprétation des résultats d’expérimentations aléatoires menées aux États-Unis dans lesquelles on proposait aux personnes de suivre un programme de formation professionnelle. Si l’on compare les personnes à qui on a donné le choix de prendre part à un programme de formation à celles à qui on n’a pas donné ce choix, on obtient une identification correcte de l’effet qu’a le fait d’offrir une telle possibilité ( « intention to treat »). L’estimation par variable instrumentale utilisant l’intention de traiter comme instrument estime correctement l’impact moyen de ce programme sur des personnes qui ont choisi d’y participer. Mais comme ces personnes sont volontaires, cela ne nous renseigne pas sur l’impact moyen d’un programme de formation qui serait rendu obligatoire pour les individus percevant des allocations chômage : l’effet pourrait être plus faible pour des gens que l’on force à participer. Pour obtenir un tel résultat, il faudrait organiser une expérimentation avec participation obligatoire.
45Des questions similaires se posent dans certaines expérimentations menées dans les pays en développement. Par exemple, l’étude de Karlan et Zinman [2007] sur les effets de l’accès au crédit à la consommation porte sur une population dont les demandes de prêts ont été rejetées par la banque. Les chercheurs ont demandé aux agents de la banque d’identifier dans cette population un petit groupe de personnes refusées et d’en « repêcher » certaines, en les sélectionnant de manière aléatoire. Cependant, les agentsconservaient leur pouvoir discrétionnaire et l’ont utilisé pour rejeter approximativement la moitié de ceux qui étaient « repêchés ». L’expérimentation identifie l’effet de ce crédit supplémentaire sur la population des personnes ayant été « repêchées » : il apparaît que ce crédit augmente les chances pour la personne de conserver son emploi ainsi que son revenu. S’il est vrai que cette expérimentation fournit des preuves (très intéressantes) du fait que le crédit à la consommation peut être une bonne chose pour certaines personnes, compte tenu de la nature inhabituelle de la population traitée (ceux ayant été « repêchés » à deux reprises), il reste possible que cet échantillon ne soit pas représentatif de l’effet pour ceux dont la demande de prêt a été directement acceptée ou définitivement rejetée.
46Heckman se demande également si les évaluations aléatoires sont la meilleure méthode pour savoir qui prend part aux programmes proposés, et pourquoi. Mais l’assignation aléatoire peut être utilisée précisément pour essayer de mieux comprendre les problèmes de sélection. Comme nous l’avons vu plus haut, plusieurs études ont été menées dans lesquelles l’assignation aléatoire est spécifiquement conçue pour mesurer l’effet de sélection, qui serait impossible à mesurer par d’autres moyens (Karlan et Zinman [2005] ; Ashraf et al. [2007] ; Cohen et Dupas [2007]). Pour mieux comprendre la sélection, Cohen et Dupas [2007] ont recueilli les taux d’hémoglobine des femmes qui ont acheté des moustiquaires à différents prix. Elles souhaitaient examiner si les femmes prenant uniquement les moustiquaires gratuites étaient moins susceptibles d’être anémiées. Dans d’autres études, bien que l’évaluation ne soit pas spécifiquement conçue pour capter l’effet de sélection, le taux de participation des personnes à qui on propose le programme est particulièrement intéressant à étudier, et les données initiales sont spécifiquement collectées pour étudier cet effet. Par exemple, les résultats intéressants de l’étude menée par Ashraf et al. [2006] permettent de décrire les caractéristiques de ceux qui adoptent un système d’engagement pour se forcer à épargner.
47Dans d’autres cas, l’adhésion au programme n’est pas un problème car le traitement se présente comme un cadeau, à la différence de l’offre de formation qui n’a aucune valeur à moins que la personne ne soit prête à y investir le temps suffisant. Par exemple, deMel et al. [2008] ont cherché à cerner, au Sri Lanka, l’effet résultant de l’octroi de dons entre $100 et $200 à toutes les entreprises de leur échantillon. Ils ont mis en valeur un impact important de ces bourses sur les revenus des entreprises, qui correspond à un rendement du capital équivalent à 5 %. McKenzie et Woodruff [2008] ont mené la même expérimentation au Mexique et les rendements qu’ils ont obtenus étaient plus élevés (20-35 %). Dans les deux cas, le fait que les entreprises ciblées étaient de petites entreprises était un élément crucial : le montant du don permettait de s’assurer que pratiquement tout le monde trouverait un intérêt à participer au programme (même lorsqu’il s’agit d’un cadeau, le fait de participer induit toujours un coût pour le participant).
48Cependant, il peut arriver que même un cadeau soit refusé, comme nous l’avons découvert à notre grande surprise lorsque nous avons travaillé avec l’institution de microcrédit Bandhan pour évaluer leurs programmes destinés à venir en aide aux ultra-pauvres (A. Banerjee, R. Chattopadhyay, E. Duflo, et J. M. Shapiro, résultats non publiés). Dans le cadre du programme Bandhan, les villageois qui sont trop pauvres pour pouvoir accéder au réseau de la micro-finance sont identifiés grâce à une évaluation participative de leurs ressources ainsi que par d’autres enquêtes de suivi, puis on leur offre un actif (en général, deux vaches, quelques chèvres, ou d’autres actifs productifs) d’une valeur comprise entre $25 et $100, et ce sans aucune obligation légale (si ce n’est qu’on leur demande de prendre soin de ce qui leur a été donné et qu’on leur indique qu’il y aura un suivi). On leur verse également une indemnité hebdomadaire et on leur assure une formation. Le but est de voir si le fait d’avoir accès à des actifs entraîne une amélioration à long terme de leurs conditions de vie (ou si ces personnes vont tout simplement vendre les biens et en épuiser rapidement les produits). Le protocole de l’évaluation a été conçu en considérant que toute personne à qui un actif serait offert l’accepterait, or il en a été tout autrement. Une part importante des clients (18 %) a refusé la proposition : certains se méfiaient car ils pensaient que l’on essayait de les convertir au christianisme ; d’autres pensaient qu’il s’agissait d’une ruse pour les endetter – et qu’en fin de compte, on leur demanderait de rembourser –. D’autres encore ne doutaient pas des motivations de Bandhan mais se sentaient incapables de s’en sortir et de prendre correctement soin de ce qui leur était donné, ils ne voulaient pas se trouver mal à l’aise dans le village en cas de perte du bien.
3.3. Problèmes spécifiques liés à l’assignation aléatoire
49L’étude Bandhan nous offre un exemple de biais de l’assignation aléatoire, à savoir l’effet de Hawthorne : le fait de faire partie d’une expérimentation (et d’être contrôlé) influence les comportements. Le fait que ces villageois n’étaient pas habitués à voir un organisme privé distribuer des actifs gratuitement a certainement contribué au problème. Cependant, il est possible que Bandhan n’ait pas fait suffisamment d’efforts de communication pour informer les villageois des détails du programme, précisément parce que seuls certains des ultra-pauvres serait sélectionné au hasard pour en bénéficier, et Bandhan ne souhaitait pas créer un effet d’attente.
50Dans la plupart des expériences, l’assignation aléatoire au niveau du lieu se justifie du fait de contraintes budgétaires et administratives. C’est précisément la raison pour laquelle les organisations acceptent souvent de procéder à une randomisation à ce niveau. Parce que les gouvernements ont des budgets limités, et parce que de très nombreuses ONG de petite taille mènent de nombreuses actions différentes, les villages ou les écoles dans la plupart des pays en développement sont habitués au fait que certaines zones bénéficient de certains programmes et d’autres non. Lorsqu’une ONG ne travaille que dans certains villages, les villageois la voient comme faisant partie de la stratégie globale de l’ONG. Lorsque l’on explique aux habitants des zones témoins que le budget n’est suffisant que pour un nombre limité d’écoles, ils sont généralement d’accord pour considérer qu’un tirage au sort est un moyen équitable d’allouer ces ressources limitées. Bien souvent, ces personnes sont tellement habituées à l’arbitraire que le principe d’assignation aléatoire leur semble à la fois transparent et légitime.
51L’un des problèmes que pose la reconnaissance explicite de l’assignation aléatoire comme un moyen équitable de répartir le programme, c’est que les acteurs de terrain peuvent penser que la manière la plus simple de présenter le programme à la communauté consiste à dire qu’il est prévu que ce programme soit à l’avenir étendu aux zones témoins (surtout lorsque cela est effectivement prévu, comme dans les cas de déploiement progressif). Cela peut créer des problèmes si, parce qu’ils anticipent le traitement, certains individus tendent à modifier leur comportement. Cette critique a été émise dans le cadre de l’évaluation du programme PROGRESA : comme les villages témoins savaient qu’un jour ou l’autre ils seraient eux aussi couverts par le programme, cela a pu avoir une influence sur leur comportement.
52Lorsque pour l’évaluation il est nécessaire que les individus ne sachent pas qu’ils sont exclus du programme, les comités d’éthique accordent en général une dispense de divulgation complète jusqu’à la fin de l’enquête, du moins lorsque le programme ne fait courir aucun risque au sujet. Dans de tels cas, les participants ne sont pas informés qu’ils font partie d’une étude randomisée. Une telle situation est plus courante lorsque l’assignation aléatoire est opérée au niveau de l’individu. Dans de tels cas, les bénéficiaires sélectionnés sont uniquement informés qu’ils ont reçu le programme : le prêt qu’ils avaient demandé leur a été accordé (Karlan et Zinman [2007]) ou que la banque a décidé de baisser leur taux d’intérêt (Karlan et Zinman [2005]), mais pas qu’il s’agissait d’une expérience.
3.4. Les effets d’équilibre
53Un problème connexe est celui posé par ce que l’on appelle couramment les effets d’équilibre général (bien que ce terme puisse créer une confusion ; nous préférons donc parler d’effets d’équilibre car le concept d’équilibre général est essentiellement un concept multimarché). Les effets d’un programme identifiés dans le cadre d’une petite étude peuvent être différents des effets du programme s’il était généralisé au niveau national (Heckman et al. [1999] ; Abbring et Heckman [2007]). Prenons par exemple ce qui se passerait si l’on essayait de généraliser un programme qui indique – dans le cadre d’une expérimentation à petite échelle – que des fillettes désavantagées ayant reçues des bourses leur permettant d’aller dans des écoles privées sont mieux formées et perçoivent des revenus plus élevés. Si le programme était généralisé au niveau national, deux choses pourraient se produire : les écoles privées pourraient être surchargées, et les bénéfices de l’éducation pourraient baisser en raison d’une augmentation de l’offre. Ces deux effets conduiraient à des résultats plus faibles que dans l’expérience localisée.
54Le problème des effets d’équilibre n’a pas de solution totalement satisfaisante. Fort heureusement, il se présente rarement. Par exemple, si nous souhaitons déterminer quelle est la meilleure stratégie pour favoriser la vaccination (distribution fiable des vaccins ou distribution fiable des vaccins accompagnée d’un petit cadeau pour que la mère se souvienne de faire le rappel du vaccin à temps) (comme dans Banerjee et al. [2008b]), la méthodeexpérimentale ne pose aucun problème. Le fait que pour vacciner la totalité de la région il n’est pas nécessaire de recruter beaucoup d’infirmières supplémentaires nous aide car nous pouvons supposer que le coût d’une infirmière ne va pas augmenter de beaucoup, voire pas augmenter du tout, si le programme est généralisé. Inversement, bien qu’il soit utile de savoir que les élèves ayant reçu des bourses pour l’école privée en Colombie s’en sortent mieux, tant au niveau de leurs études que plus tard dans la vie (voir Angrist et al. [2002, 2006]), il est probable que la généralisation du programme entraînerait une augmentation de l’offre de travail éduqué, et donc une baisse de la rémunération de l’éducation. Un problème similaire se pose pour l’évaluation des programmes de formation professionnelle. Par exemple, Attanasio et al. [2008b] ont eu recours à l’assignation aléatoire de candidats dans le cadre d’un programme de formation professionnelle en Co-lombie. Le programme s’intitulait Jovenes in Action et l’objectif était d’en évaluer l’impact. Attanasio et son équipe montrent que le programme a un effet important sur le taux d’emploi une fois le diplôme obtenu. Cependant, dans la mesure où le programme de formation proposait également une aide à la recherche d’emploi, il se peut qu’il ait aidé les stagiaires à trouver plus facilement un travail aux dépends d’autres jeunes. Cet effet pourrait disparaître totalement dès lors que le programme s’adresserait à tous les jeunes d’une même ville.
55Les effets d’équilibre peuvent être étudiés dans des études de programmes menés à grande échelle. Cela n’est pas un argument en faveur des études « cross-countries », qui sont souvent impossible à interpréter, mais plutôt des études basées sur des données microéconomiques qui tirent parti de changements de politique économique de grande échelle. Bien que ces politiques ne soient typiquement pas assignées de manière aléatoire, ces études permettent d’être attentifs aux problèmes de causalité ainsi qu’aux effets d’équilibre. Un bon exemple de ce type de recherche est le travail réalisé par Hsieh et Urquiola [2006] qui utilisent un protocole quasi expérimental pour démontrer que le programme chilien de coupons pour l’école privée ne s’est pas traduit par une amélioration générale de la qualité de l’éducation, bien qu’il ait modifié l’allocation des élèves dans les écoles. D’autres études se penchent spécifiquement sur d’éventuels effets d’équilibre de marché des politiques, comme par exemple les études d’Acemoglu et Angrist [2001] et de Duflo [2004a].
56On peut vérifier si les résultats provenant d’une étude quasi expérimentale au niveau d’une zone concordent avec les résultats d’expériences aléatoires plus locales. Par exemple, dans le cas des coupons, nous nous attendons à ce que les effets d’équilibre viennent enrayer la réponse de l’offre et donc, nous nous attendons à ce que des études plus importantes, quasi-expérimentales, donnent des effets plus modestes que ceux constatés dans les expérimentations. Si nous constatons le contraire, alors il faudra s’interroger sur la fiabilité ou la représentativité de l’étude non-expérimentale. En ce sens, les expérimentations et les études non expérimentales peuvent se compléter plutôt que de se substituer les unes aux autres.
57Une autre approche consiste à essayer d’évaluer l’importance de l’effet d’équilibre en utilisant la méthode expérimentale. Dans le cadre d’une recherche en cours, Kremer et Muralidharan (résultats non publiés) ont étudiéles effets d’un programme de bourse pour l’école privée grâce à une double assignation aléatoire : ils ont assigné de manière aléatoire les villages dans lesquels les bourses ont été distribuées, ainsi que les personnes qui ont reçu les bourses au sein d’un même village. En comparant les estimations qu’ils vont obtenir à partir de ces deux traitements, ils espèrent être en mesure de déduire l’importance de l’effet d’équilibre. Cette approche ne traite que d’un niveau d’équilibre (sur le marché de l’éducation, pas sur celui du travail) mais il s’agit là d’un début important.
58Une autre alternative consiste à combiner les résultats de différentes expérimentations en utilisant une expérimentation (ou éventuellement une quasi-expérimentation) pour estimer l’élasticité de la demande de compétences, une autre pour estimer l’offre d’enseignement de qualité et une troisième pour estimer dans quelle mesure la distribution de bourses pour l’école privée contribuent à l’acquisition de compétences. Ce type de travail nécessite une approche plus structurelle, toutefois il a la capacité de combler l’écart entre les mondes macro et micro. Il répond aux critiques selon lesquelles les expérimentations peuvent permettre d’obtenir la bonne réponse à des questions mineures sans pour autant parvenir à traiter des « grandes » questions d’intérêt (comme on peut le lire dans certains des commentaires portant par exemple sur l’article de Banerjee dans la Boston Review ; ces commentaires sont présentés dans Banerjee [2007]). L’expérimentation peut nous aider à estimer les paramètres économiques (tels que la rentabilité du capital pour les petites entreprises, l’élasticité de l’emploi, les avantages individuels de l’éducation, etc.), paramètres qui peuvent ensuite être utilisés de manière combinée avec des modèles d’équilibre microfondés (Heckmanet al. [1999] ont développé et exposé cette méthode pour une politique d’enseignement). Il existe en économie du développement une littérature de plus en plus importante, avec notamment des gens comme Robert Townsend et ses collaborateurs, qui tente d’intégrer les microestimations dans l’étalonnage des modèles de croissance avec contraintes de crédit [6]. Il est clair qu’il reste encore beaucoup à faire dans ce domaine.
3.5. L’hétérogénéité des effets du traitement
59La majorité des évaluations de programmes sociaux se concentre exclusivement sur l’impact moyen. L’un des avantages des résultats expérimentaux réside dans leur simplicité : ils sont faciles à interpréter car la seule chose à faire consiste à comparer des moyennes – ceci pourrait encourager les décideurs politiques à prendre ces résultats plus au sérieux (voir, par exemple, Duflo [2004b] ; Duflo et Kremer [2004]). Cependant, comme le soulignent Heckman et al. [1997], l’effet moyen d’un traitement peut ne pas être ce que les décideurs politiques veulent savoir : ils pourraient s’intéresserplus à l’effet sur les plus pauvres, ou sur les plus riches. D’un point de vue intellectuel, restreindre l’analyse à une comparaison naïve des moyennes n’a pas grand sens.
60Malheureusement, l’effet moyen d’un traitement (ou l’effet moyen du traitement dans un sous-échantillon déterminé par des variables observables) est la seule statistique conventionnelle de la distribution que l’on puisse obtenir à partir d’une expérimentation aléatoire, sans hypothèses supplémentaires (Heckman [1992]). Bien entendu, nous pouvons toujours comparer la totalité de la distribution des résultats obtenus pour un traitement à celle des résultats obtenus pour l’échantillon témoin : il existe des tests de comparaison des distributions ainsi que les dominances stochastiques (voir Abadie [2002]). Par exemple, Banerjee et al. [2007] ont montré que la distribution des résultats aux examens parmi les élèves des écoles qui bénéficient d’un balsakhi (ou tuteur) fait apparaître une dominance stochastique de premier ordre dans le groupe traitement (par rapport au groupe témoin) et que la majorité des gains sont obtenus chez les enfants initialement en situation d’échec scolaire. Cette découverte est importante car, dans les classes du programme, les enfants en situation d’échec scolaire étaient extraits de la salle de classe et se voyaient proposer un soutien scolaire, alors que ceux qui étaient en tête de classe restaient dans la classe. Ainsi, on s’attend à obtenir des effets différents sur les deux groupes et il serait difficile de justifier le programme s’il n’aidait que les meilleurs élèves. Dufloet al. [2007] ont également étudié comment le programme de motivation des enseignants grâce à l’appareil photo, dont nous avons parlé plus haut, a un effet sur la totalité de la distribution des absences parmi les professeurs et ils ont trouvé une dominance stochastique de premier ordre. Cependant, le fait de comparer ces distributions ne fournit pas d’information sur la distribution des effets du traitement en tant que tel (car les différences de quantiles d’une distribution ne sont pas le quantile de la différence).
61Dans leur excellent examen de la littérature économique récente traitant de l’évaluation des programmes (y compris des détails techniques qui sont derrière une grande partie de la matière traitée ici), Imbens et Woolridge [2008] avancent l’opinion que la distribution des variables d’intérêt dans le groupe traitement et dans le groupe témoin (que l’on peut toujours connaître) est tout ce que nous avons besoin de savoir sur le programme : toute fonction de bien-être sociale est définie en fonction de la distribution des variables d’intérêt, pas en fonction de la distribution des effets du traitement. On pourrait ne pas être d’accord avec ce point de vue. Une personne en charge de la planification peut s’intéresser au pourcentage de personnes qui vont bénéficier d’un traitement, pourcentage qui n’est pas identifié par des expérimentations (ou par n’importe quelle autre méthode d’évaluation) sans hypothèses supplémentaires. Pour bien comprendre toute l’étendue du problème, prenons l’exemple suivant : nous avons une population de trois personnes dont nous connaissons les valeurs des « potential outcomes » (ou, la valeur de la variable d’intérêt dans les deux états possibles, traité ou contrôlé), avec et sans traitement. Sans traitement, le potential outcome de Monsieur A est de 1, celui de Monsieur B est de 2 et celui de Monsieur C est de 3. Avec traitement, le potential outcome de Monsieur A est de 2, celui de Monsieur B est de 3 et celui de Monsieur C est de -4. Que devons-nouspenser de ce programme ? Que ce soit en termes d’effet moyen du traitement ou en termes de distribution générale, le traitement a échoué : la distribution 1, 2, 3 pour le potential outcome sans traitement domine stochastiquement la distribution -4, 2, 3 du potential outcome avec traitement. Devons-nous par conséquent en conclure qu’un décideur politique devrait toujours favoriser l’échantillon témoin par rapport au traitement ? Pas nécessairement, car le traitement bénéficie à une majorité et le décideur politique peut avoir un intérêt à faire ce qui est bien pour le plus grand nombre. Et même si nous ne sommes pas d’accord avec les préférences des décideurs politiques, il est difficile d’argumenter que c’est l’évaluateur qui doit dicter le choix de la fonction de bien être social.
62Dès lors que nous reconnaissons l’intérêt potentiel qu’il y a à identifier la distribution des effets d’un traitement (et non la distribution des résultats finaux), un problème se pose : il est impossible d’extraire cette information de la distribution des résultats dans le groupe témoin et dans le groupe traitement. Le problème ici est d’ordre logique et il n’est pas spécifique aux expérimentations en tant que telles, ni d’une quelconque autre stratégie d’évaluation spécifique – l’information pertinente n’est tout simplement pas disponible parce que nous ne connaissons pas les potential outcomes traités et contrôlés pour chaque individu. Dans le cas d’une expérience randomisée, Heckman et al. [1997] montrent que l’introduction d’hypothèses de comportement supplémentaires (plus spécifiquement, la modélisation de la décision de participer comme une fonction des résultats potentiels, avec et sans traitement) permet une estimation précise des liens au niveau des caractéristiques de la distribution des effets du traitement. Abbring et Heckman [2007] donnent une liste détaillée de méthodes pour estimer la distribution des effets d’un traitement. Ces techniques peuvent également s’appliquer dans des contextes non expérimentaux mais les auteurs soulignent le fait qu’elles peuvent être particulièrement utiles avec des données expérimentales car, d’une part, les expériences permettent d’éviter les problèmes de sélection qui « minent les données non expérimentales », et d’autre part elles garantissent que les variables observées aient un support commun dans les groupes de traitement et de contrôle, une condition nécessaire à l’application de ces techniques.
63A notre avis, la recherche expérimentale aurait tout à gagner à participer plus aux travaux de ce corpus de recherche. Communiquer des résultats dont la validité est sujette à plus d’hypothèse en plus des résultats purement expérimentaux ne peut qu’enrichir le travail expérimental, dès lors que les limites de ces résultats additionnels sont explicitement discutées. Cependant, les expérimentations conservent un avantage essentiel par rapport aux autres méthodes : avec très peu d’hypothèses, il est possible de connaître des aspects importants de l’impact du traitement (tels que la moyenne pour n’importe quel sous-groupe). Le fait que nous souhaitions aller au-delà de ces mesures, et que nous puissions en conséquence avoir besoin d’hypothèses supplémentaires ne peut pas être retenu en faveur des méthodes non randomisées.
64En outre, dans la plupart des cas, on s’intéresse plus à l’hétérogénéité du traitement en fonction de caractéristiques observables. Par exemple, dans l’expérimentation des balsakhi, nous avons non seulement observé que ladistribution des résultats aux examens dans le groupe traitement présentait une dominance stochastique de premier ordre par rapport au groupe témoin, mais nous avons également vu que c’étaient les élèves qui obtenaient initialement les résultats les plus bas qui en profitaient le plus. Du point de vue de Pratham c’est cette dimension d’hétérogénéité, facilement observable dès lors que l’on a des données sur les scores avant que l’expérience commence, qui est intéressante. Lorsque nous démarrons une expérimentation, il faut que nous ayons émis des hypothèses claires quant à la manière dont les effets du traitement varient en fonction de variables de contrôle et que nous ayons collecté les données initiales appropriées.
65Heureusement, la recherche récente en économétrie est là pour nous aider. Crump et al. [2009] ont mis au point deux tests non paramétriques pour déterminer si les effets d’un traitement sont hétérogènes : l’un de ces tests permet de déterminer si l’effet du traitement est égal à zéro pour n’importe quel sous groupe (définie par les variables de contrôle) et l’autre test permet de voir si l’effet du traitement est le même pour tous les sous groupes (définis par les variables de contrôle).
66De plus, il est possible d’estimer les effets d’un traitement pour différents sous-groupes. L’une des difficultés réside dans le fait que, si les sous-groupes sont déterminés ex post, il y a un danger « d’aller à la pêche » pour trouver un résultat positif au moins dans un sous-groupe déterminé ex-post. Pour éviter cet écueil, la théorie peut nous aider en nous indiquant ce à quoi nous devons nous attendre. Une autre possibilité est de spécifier ex ante les résultats devant être observés et les hypothèses testées, en particulier les sous-groupes (ce qui est recommandé dans la littérature médicale). Si nous souhaitons tout de même tirer des leçons des différences des effets (intéressants mais inattendus ex ante) du traitement, la duplication peut être utile : dès lors que l’on organise une seconde expérimentation, il est possible de la construire explicitement pour tester ces hypothèses nouvelles. Par exemple Karlan et Zinman [2007] et deMel et al. [2009] ont trouvé des résultats différents chez les hommes et chez les femmes. Ces différences étaient inattendues et peuvent être dues au hasard. Mais à partir du moment où l’étude est dupliquée ailleurs, ces différences peuvent former le socle d’un nouvel ensemble d’hypothèses à tester (Pour une discussion plus détaillée de ces points, voir Duflo [2007]).
67Enfin, différents articles récents (Manski [2000, 2002, 2004] ; Deheijia [2005] ; Hirano et Porter [2005]) cherchent à rendre tout ceci moins ad hoc. Les auteurs veulent intégrer le processus d’évaluation et d’apprentissage dans le cadre explicite de l’élaboration des programmes. Ainsi, ils tentent de se mettre eux-mêmes, de manière explicite, à la place d’un décideur politique essayant de décider non seulement s’il doit ou non mettre en œuvre un programme, mais qui se demande également comment (le programme doit-il être obligatoire ? Doit-on laisser des marges de manœuvre au gestionnaire pour choisir les participants ?). Le décideur politique a accès aux variables de contrôle concernant les bénéficiaires potentiels ainsi qu’aux résultats des expérimentations aléatoires. Ces travaux tentent de développer une théorie sur la manière dont un gestionnaire devrait prendre des décisions, en tenant compte à la fois de l’hétérogénéité et de l’incertitude des bénéfices d’un programme conditionnés par les variables de contrôle. Anotre connaissance, ces outils n’ont pas été utilisés dans la recherche en économie du développement. Nous avons donc devant nous des pistes de travail très riches.
3.6. Relations avec l’estimation structurelle
68Initialement, la plupart des articles portant sur l’approche expérimentale se concentraient sur des estimations en forme réduite des effets d’un programme. Cependant, il n’y a pas de raison de ne pas utiliser ces données pour extraire des paramètres structurels quand cela est possible. Les estimations structurelles demandent plus d’hypothèses, mais elles peuvent être utiles pour vérifier et confirmer des résultats et d’une manière plus générale, pour soutenir leur validité externe. Par ailleurs, si nous avons confiance dans les hypothèses qui sous-tendent ces estimations, il est possible d’en tirer des conclusions politiques qui iront bien au-delà de ce que l’on obtient à partir des formes réduites.
69Parmi les premiers exemples de ces méthodes appliquées au développement, on trouve les travaux d’Attanasio et al. [2001] et de Todd et Wolpin [2006] qui ont tous deux utilisés les données de PROGRESA. Todd et Wolpin [2006] utilisent l’expérimentation comme moyen de valider le modèle structurel : ils ont évalué un modèle structurel sur l’échantillon non traité, et vérifier que le modèle prédisait correctement l’impact du traitement. Un autre exemple du potentiel qu’il y a à associer expérimentation et estimation structurelle est présenté dans Duflo et al. [2007]. Après avoir présenté les résultats des formes réduites, l’article exploite la non-linéarité dans les incitations auxquelles font fasse les enseignants de Seva Mandir (les enseignants percevaient un salaire minimum de $10 s’ils étaient présents moins de 10 jours par mois, et un bonus de $1 par jour supplémentaire) pour obtenir une estimation du coût d’opportunité et de l’élasticité de l’absence au bonus. Le modèle est extrêmement simple : en venant à l’école les premiers jours du mois, l’enseignant augmente sa chance de percevoir $1 supplémentaire par jour à la fin du mois et doit renoncer à son utilité de ne pas aller à l’école ce jour là. Ce modèle fait néanmoins surgir des problèmes d’estimation très intéressants à partir du moment où l’on essaye d’introduire de manière réaliste une hétérogénéité et une auto-corrélation au cours du temps dans le coût d’opportunité de se rendre au travail. Comme pour Todd et Wolpin [2006] cet article compare ensuite les prévisions du modèle pour le comportement du groupe témoin, et pour le groupe traitement après un changement dans les règles de paiement de Seva Mandir.
70En principe, il devrait être possible d’exploiter davantage les complémentarités entre estimation structurelle et expérimentations. L’un des avantages des expérimentations réside dans leur souplesse quant à la collecte de données et au choix du traitement (dans les limites des règles éthiques et des règles applicables aux études portant sur des sujets humains, et de ce que les partenaires veulent – et peuvent – mettre en œuvre). Il devrait être possible de concevoir l’expérimentation pour faciliter l’estimation structurelle en s’assurant qu’elle inclut des sources de variation qui aideraient les chercheurs à identifier les paramètres nécessaires et à collecter les données appropriées. Les expérimentations en économie du développement comportent de plus en plus souvent des structures complexes et des groupes de traitement nombreux. Il est donc possible d’introduire une variation qui pourrait aider à identifier les paramètres structurels d’intérêt. On pourrait aussi estimer un modèle structurel à partir des données initiales avant que les résultats expérimentaux ne soient connus afin de procéder à une validation « en aveugle » des modèles structuraux. Nous ne disposons pas encore d’exemples de travaux de ce type : ceux dont nous parlons exploitent la variation expérimentale, ex post plutôt qu’ils ne l’introduisent à dessein.
3.7. Relations à la théorie
71Les expérimentations peuvent être et ont été utiles pour tester les théories (cf. Banerjee [2005] et Duflo et al. [2006] pour un exposé plus exhaustif de ces questions). Comme l’identification des résultats expérimentaux de base ne dépend pas de la théorie, il est possible de tester la théorie de manière irréfutable (c’est-à-dire que l’on peut disposer d’un test qui ne va pas dépendre également d’autres théories). Ainsi, les résultats expérimentaux nous ont amené à repenser certains éléments de base de la théorie de la demande.
72Plusieurs études par assignation aléatoire portant sur la demande en produits de santé préventive, sont parvenues à la conclusion que l’élasticité de la demande au prix est énorme. Au Kenya, Kremer et Miguel [2007] montrent que le fait d’augmenter le prix des médicaments antiparasites de 0 à 30 cents par enfant réduit la fraction d’enfants prenant le médicament de 75 % à 19 %. Toujours au Kenya, Cohen et Dupas [2007] ont découvert que le fait d’augmenter le prix des moustiquaires imprégnées d’insecticide de 0 à 60 cents réduit de 60 % le nombre de ceux qui achètent les moustiquaires. En Zambie, le fait d’augmenter le prix d’un désinfectant de l’eau de 9 à 24 cents a réduit de 30 % la part des personnes acceptant l’offre (Ashraf et al. [2007]). On retrouve des réponses importantes similaires à celles-ci dans le cas des petites subventions : en Inde, Banerjee et al. [2008b] ont constaté qu’en offrant aux mères un kilo de lentilles (d’une valeur d’environ 60 cents) à chaque vaccination et une série de bols lorsque le programme de vaccination était terminé, on augmentait de 20 % la probabilité que l’enfant reçoive l’ensemble des vaccins nécessaires. Plus remarquable encore : au Malawi, une récompense de 10 cents a eu pour conséquence que 20 % de personnes supplémentaires sont allées chercher les résultats de leur test de dépistage du sida (Thornton [2007]).
73Après avoir passé en revue tous ces résultats (ainsi que plusieurs articles sur l’éducation qui aboutissent tous à des conclusions similaires), Holla et Kremer [2008] concluent que ces élasticités de la demande ne peuvent provenir du modèle standard de demande de santé. Par exemple, on peut imaginer que des agents économiques rationnels et conventionnels pourraient décider soit de faire un test de dépistage du sida (sachant que le fait de connaître leur statut va leur permettre de prolonger leur vie et celle desautres) soit de ne pas le faire (le test peut être très stressant et source de honte). Ce qui est plus difficile à comprendre c’est qu’autant d’entre eux changent d’avis à cause de 10 cents alors qu’il s’agit de quelque chose qui risque fort de bouleverser totalement leur vie.
74Kremer et Holla [2008] avancent l’hypothèse qu’un tel schéma de demande correspond à un modèle dans lequel les gens désirent vraiment le produit mais en remettent toujours l’acquisition à plus tard : il est tentant de retarder le moment où il faut payer le prix dans la mesure où les bénéfices se situent dans le futur. Cependant, si les gens veulent vraiment acheter des moustiquaires, ou s’ils veulent connaître les résultats de leur test, mais reculent sans arrêt la décision de le faire, alors ils doivent être extrêmement naïfs, compte tenu des bénéfices potentiels en termes de vie sauvée que représentent ces deux actions. Or, en termes de produits financiers, les résultats (expérimentaux) tendent à montrer que les gens ne sont pas naïfs. Ashraf et al. [2006] montrent ainsi que ceux qui ont des préférences hyperboliques sont prêts à adopter des dispositifs d’engagement afin de bloquer leur épargne, ce qui indique un niveau élevé de conscience de soi. Duflo et al. [2008c] montrent que les fermiers kenyans qui déclarent ne pas avoir suffisamment d’argent pour acheter des engrais au moment des semailles, sont prêts à bloquer de l’argent au moment de la récolte, pour acheter les engrais qui seront utilisés plusieurs mois plus tard. Ainsi, lorsqu’on leur donne ex ante (avant la récolte) le choix du moment auquel les engrais étaient proposés aux fermiers, près de la moitié des fermiers demandent que les vendeurs passent les voir immédiatement après la récolte plutôt qu’au moment où ils ont besoin des engrais, car ils savent qu’ils auront l’argent nécessaire à ce moment-là. Leur demande de livraison immédiate tend à prouver que les fermiers se contrôlent suffisamment pour garder l’engrais sans le revendre.
75Il arrive que les expérimentations donnent des résultats qui sont encore plus troublants par rapport à la théorie existante (pour une analyse plus détaillée, voir Duflo [2007]). Bertrand et al. [2009] donnent un exemple frappant qui ne cadre avec aucune théorie économique existante : ils montrent que des modifications apparemment mineures (comme la présence d’une photographie sur une publicité) ont autant d’effet sur les éventuels emprunteurs que des changements importants du taux d’intérêt.
76Dans toutes ces recherches, les expériences de terrain jouent le rôle traditionnellement joué par les expériences de laboratoire, mais avec plus de crédibilité. L’objectif est de disposer de meilleures théories, mais est-ce que la théorie peut nous aider à concevoir de meilleures expériences et à mieux interpréter les résultats afin d’élaborer de meilleures politiques ? Une direction possible consiste à utiliser les résultats expérimentaux pour évaluer les modèles structurels. La théorie peut aussi jouer un rôle plus basique mais tout aussi important : nous avons besoin d’un cadre qui nous permette d’interpréter des résultats isolés. Par exemple, pouvons-nous aller au-delà de la simple observation du fait que différentes ressources introduites dans les écoles ont des productivités différentes ? Ou est-ce que chaque résultat expérimental constitue un résultat sui generis ? Pour atteindre cet objectif, il est peu probable que l’on ait besoin d’une théorie très compliquée. La théorie doit nous permettre de réduire la dimensionnalité sur la base d’un ensemble de prémices raisonnables. Il est essentiel que d’autres travaux soient réalisés dans ce sens.
4. Conclusion
77Nous sommes donc totalement d’accord avec le principal point soulevé par Heckman [1992] : pour être intéressantes, les expérimentations doivent être ambitieuses et éclairées par la théorie. C’est aussi dans ce cas qu’elles seront le plus susceptibles d’être utiles aux décideurs politiques. Nous croyons fermement que les connaissances des économistes peuvent et doivent guider les décideurs dans l’élaboration des politiques (voir également Banerjee [2002]). Les économistes sont parfois bien placés pour proposer ou identifier des programmes politiques susceptibles de réellement changer les choses. Sans doute plus important encore, ils sont parfois en excellente position pour faire naître le processus de découverte de politiques, en jouant sur les deux tableaux : celui de la théorie et celui de la recherche expérimentale. Ce processus « d’expérimentation créative », dans le cadre duquel les décideurs politiques et les chercheurs travaillent ensemble pour réfléchir différemment et tirer les enseignements des réussites et des échecs est sans aucun doute la contribution la plus précieuse des récentes études expérimentales.
Références bibliographiques
- ABADIE A. [2002], « Bootstrap tests for distributional treatment effects in instrumental variables models », Journal of the American Statistical Association, 97 (457), p. 284-292.
- ABBRING J. H, HECKMAN J. J. [2007], « Econometrics evaluation of social programs part III : distributional treatment effects, dynamic treatment effects, dynamic discrete choice and general equilibrium policy evaluation », in : J. J. Heckman and E. E. Leamers (Eds.), Handbook of Econometrics, Volume 6B, Chapter 72, Amsterdam : Elsevier, p. 5145-5303.
- ABDUL LATIF JAMEEL POVERTY ACTION LAB (ALJ-PAL) [2005], Fighting Poverty : What Works ?, Fall, Issue 1, Cambridge, MA : MIT.
- ACEMOGLU D., ANGRIST J. [2001], « How large are human-capital externalities ? Evidence from compulsory schooling laws », in : B. S. Bernanke and K. Rogoff (Eds.), NBER Macroeconomics Annual 2000, Volume 15, Cambridge, MA : MIT Press, p. 9-74.
- ANGRIST J., BETTINGER E., BLOOM E., KREMER M., KING E. [2002], « Vouchers for private schooling in Colombia : evidence from randomized natural experiments », American Economic Review, 92 (5), p. 1535-1558.
- ANGRIST J., BETTINGER E., KREMER M. [2006], « Long-term educational consequences of secondary school vouchers : evidence from administrative records in Colombia », American Economic Review, 96 (3), p. 847-862.
- ANGRIST J., LANG D., OREOPOULOS P. [2009], « Incentives and services for college achievement : evidence from a randomized trial », American Economic Journal : Applied Economics, 1 (1), p. 136-163.
- ANGRIST J., LAVY V. [2009], « The effect of high school matriculation awards : evidence from group-level randomized trials », American Economic Review, in press (see also NBER Working Papers 9389).
- ASHRAF N., BERRY J., SHAPIRO J. M. [2007], « Can higher prices stimulate product use ? Evidence from a field experiment in Zambia », NBER Working Papers 13247.
- ASHRAF N., KARLAN D., YIN W. [2006], « Tying Odysseus to the mast : evidence from a commitment savings product in the Philippines », Quarterly Journal of Economics, 121 (2), p. 635-672.
- ATTANASIO O., BARR A., CAMILLO J., GENICOT G., MEGHIR C. [2008a], « Group formation and risk pooling in a field experiment », . Mimeogr., Georgetown University.
- ATTANASIO O., KUGLER A., MEGHIR C. [2008b], « Training disadvantaged youth in Latin America : evidence from a randomized trial », ISF Working Papers (EWP 08/01), Institute for Fiscal Studies, London.
- ATTANASIO O., MEGHIR C., SANTIAGO A. [2001], « Education choices in Mexico : using a structural model and a randomized experiment to evaluate », Progresa.Mimeogr., University College London.
- BANAJI M. [2001], « Implicit attitudes can be measured », in : H. L. Roediger III, J. S. Nairne, I. Neath and A. Surprenant (Eds.), The Nature of Remembering : Essays in Honor of Robert G. Crowder, Washington DC : American Psychological Association, p. 117-150.
- BANERJEE A. [2002], « The uses of economic theory : against a purely positive interpretation of theoretical results », Working Papers 007, Department of Economics, MIT.
- BANERJEE A. [2005], « New development economics and the challenge to theory »,Economic and Political Weekly, 40 (40), p. 4340-4344.
- BANERJEE A. [2007], Making Aid Work, Cambridge, MA : MIT Press.
- BANERJEE A. [2008], « Big answers for big questions : the presumption of growth policy », Mimeogr., Department of Economics, MIT.
- BANERJEE A., BANERJI R., DUFLO E., GLENNERSTER R., KHEMANI S. [2009], « Pitfalls of participatory programs : evidence from a randomized evaluation in education in India », NBER Working Papers 14311, Forthcoming in American Economic Journal : Economic Policy.
- BANERJEE A., COLE S., DUFLO E., LINDEN L. [2007] « Remedying education : evidence from two randomized experiments in India », Quarterly Journal of Economics, 122 (3), p. 1235-1264.
- BANERJEE A., DUFLO E. [2005], « Growth theory through the lens of development economics », in : S. Durlauf and P. Aghion (Eds.), Handbook of Economic Growth,Volume 1A, Amsterdam : Elsevier, p. 473-552.
- BANERJEE A., DUFLO E., GLENNERSTER R., KOTHARI D. [2008b], « Improving immunization coverage in rural India : a clustered randomized controlled evaluation of immunization campaigns with and without incentives », Mimeogr., Department of Economics, MIT.
- BANERJEE A., JACOB S., KREMER M., LANJOUW J., LANJOUW P. [2005], « Moving to universal education ! Costs and trade offs », Mimeogr., Department of Economics, MIT.
- BEAMAN L., CHATTOPADHYAY R., DUFLO E., PANDE R., TOPALOVA P. [2009], « Powerful women : does exposure reduce bias ? » BREAD Working Papers 181 ; NBER Working Papers 14198, forthcoming in Quarterly Journal of Economics.
- BERRY J. [2008], « Child control in education decisions : an evaluation of targeted incentives to learn in India », Mimeogr., Department of Economics, MIT.
- BERTRAND M., CHUGH D., MULLAINATHAN S. [2005], « Implicit discrimination »,American Economic Review, 95 (2), p. 94-98.
- BERTRAND M., DJANKOV S., HANNA R., MULLAINATHAN S. [2007], « Corruption in driving licensing process in Delhi », Quarterly Journal of Economics, 122 (4), p. 1639-1676.
- BERTRAND M., KARLAN D., MULAINATHAN S., ZINMAN J. [2009], « What’s Advertising Content Worth ? Evidence from a Consumer Credit Marketing », forthcoming in Quarterly Journal of Economics.
- BJORKMAN M., SVENSSON J. [2007], « Power to the people : evidence from a randomized field experiment of a community-based monitoring project in Uganda », CEPR Working Papers 6344, forthcoming in Quarterly Journal of Economics.
- BLEAKLEY H. [2007], « Disease and development : evidence from hookworm eradication in the american south », Quarterly Journal of Economics, 122 (1), p. 73-117.
- BOBONIS G., MIGUEL E., SHARMA C. P. [2006], « Anemia and school participation », Journal of Human Resources, 41 (4), p. 692-721.
- COHEN J., DUPAS P. [2007], « Free distribution or cost-sharing ? Evidence from a randomized malaria prevention experiment », Global Working Papers 14, Brookings Institution.
- CRUMP R., HOTZ J., IMBENS G., MITNIK O. [2009], « Nonparametric tests for treatment effect heterogeneity », Review of Economics and Statistics, in press.
- DEHEJIA R. [2005], « Program evaluation as a decision problem », Journal of Econometrics, 125 (1-2), p. 141-173.
- DE MEL S., MCKENZIE D., WOODRUFF C. [2008] « Returns to capital in microenterprises : evidence from a field experiment », Quarterly Journal of Economics, 123 (4), p. 1329-1372.
- DE MEL S., MCKENZIE D., WOODRUFF C. [2009], « Are Women More Credit Constrained ? Experimental Evidence on Gender and Microenterprise Returns », forthcoming in American Economic Journal : Applied Economics.
- DUFLO E. [2004a], « The medium run consequences of educational expansion : evidence from a large school construction program in Indonesia », Journal of Development Economics, 74 (1), p. 163-197.
- DUFLO E. [2004b], « Scaling up and evaluation », in : F. Bourguignon and B. Pleskovic (Eds.), Accelerating Development, Washington, DC : World Bank/Oxford University Press, p. 342-367.
- DUFLO E. [2007], « Field experiments in development economics », in : R. Blundell, W. Newey and T. Persson (Eds.), Advances in Economic Theory and Econometrics, Econometric Society monograph 42, Cambridge, UK : Cambridge University Press, chapter 13.
- DUFLO E., CHATTOPADHYAY R. [2004], « Women as policy makers : evidence from a randomized policy experiment in India », Econometrica, 72 (5), p. 1409-1443.
- DUFLO E., DUPAS P., KREMER M. [2008a], « Peer effects, pupil teacher ratios, and teacher incentives : evidence from a randomized evaluation in Kenya », Mimeogr., Department of Economics, MIT.
- DUFLO E., DUPAS P., KREMER M., SINEI S. [2006], « Education and HIV/AIDS prevention : evidence from a randomized evaluation in western Kenya », World Bank Policy Research Working Papers 402, World Bank.
- DUFLO E., HANNA R., RYAN S. [2007], « Monitoring works : getting teachers to come to school », BREAD Working Papers 103 (see also NBER Working Papers 11880).
- DUFLO E., KREMER M. [2004], « Use of randomization in the evaluation of development effectiveness », in : O. Feinstein, G. K. Ingram and G. K. Pitman (Eds.), Evaluating Development Effectiveness, World Bank Series on Evaluation and Development, Volume 7, New Brunswick, NJ : Transactions, p. 205-232.
- DUFLO E., KREMER M., GLENNERSTER R. [2008b], « Using randomization in development economics research : a toolkit », in : T. P. Schultz and J. A. Strauss (Eds.),Handbook of Development Economics, Volume 4, Chapter 15, Amsterdam : Elsevier, p. 3895-3962.
- DUFLO E., KREMER M., ROBINSON J. [2008c], « How high are rates of return to fertilizer ? Evidence from field experiments in Kenya », American Economic Review, 98 (2), p. 482-488.
- DUFLO E., KREMER M., ROBINSON J. [2008d], « Why are farmers not using fertilizer ? Procrastination and learning in technology adoption », Mimeogr., Department of Economics, MIT.
- DUPAS P. [2007], « Relative risks and the market for sex : teenage pregnancy, HIV, and partner selection in Kenya », Mimeogr., University of California, Los Angeles.
- FISZBEIN A., SCHADY N. (EDS.) [2009], Conditional Cash Transfers : Reducing Present and Future Poverty, Washington, DC : World Bank.
- GINE X., KARLAN D., ZINMAN J. [2008], « Put your money where your butt is : a commitment savings account for smoking cessation », Mimeogr., Department of Economics, Yale University.
- GLEWWE P., ILIAS N., KREMER M. [2003], « Teacher incentives », Working paper, Department of Economics, Harvard University.
- GLEWWE P., KREMER M., MOULIN S. [2009], « Many children left behind ? Textbooks and test scores in Kenya », American Economic Journal : Applied Economics, 1 (1), p. 112-135.
- GLEWWE P., KREMER M., MOULIN S., ZITZEWITZ E. [2004], « Retrospective vs. prospective analyses of school inputs : the case of flip charts in Kenya », Journal of Development Economics, 74 (1), p. 251-268.
- HECKMAN J. J. [1992]. « Randomization and social policy evaluation », in : C Manski, I Garfinkel (Eds.), Evaluating Welfare and Training Programs, Cambridge, MA : Harvard University Press, p. 201-230.
- HECKMAN J. J., ICHIMURA H., SMITH J., TODD P. [1998], « Characterizing selection bias using experimental data », Econometrica, 66 (5), p. 1017-1098.
- HECKMAN J. J., ICHIMURA H., TODD P. [1997], « Matching as an econometric evaluation estimator : evidence from evaluating a job training program », Review of Economic Studies, 64 (4), p. 605-654.
- HECKMAN J., LEAMERS E. (EDS.) [2008]. Handbook of Econometrics, Volume 6B, Amsterdam : Elsevier, 1054 p.
- HECKMAN J. J., LOCHNER L., TABER C. [1999], « Human capital formation and general equilibrium treatment effects : a study of tax and tuition policy », Fiscal Studies, 20 (1), p. 25-40.
- HECKMAN J. J., SMITH J., CLEMENTS N. [1997], « Making the most out of programme evaluations and social experiments : Accounting for heterogeneity in programme impacts », Review of Economic Studies, 64 (4), p. 487-535.
- HECKMAN J. J., SCHMIERER D., URZUA S. [2010], « Testing the correlated random coefficient model », forthcoming in Journal of Econometrics.
- HECKMAN J. J., URZUA S., VYTLACIL E. J. [2006], « Understanding instrumental variables in models with essential heterogeneity », Review of Economics and Statistics, 88 (3), p. 389-432.
- HECKMAN J. J., VYTLACIL E. J. [2008a], « Econometrics evaluation of social program part I : using the marginal treatment effect to organize alternative economic estimators to evaluate social programs and to forecast their effect in new environment ». See Heckman and Leamers 2008, p. 4779-4874.
- HECKMAN J. J., VYTLACIL E. J. [2008b], « Econometrics evaluation of social program part II : using the marginal treatment effect to organize alternative economic estimators to evaluate social programs and to forecast their effect in new environment ». See Heckman and Leamers 2008, p. 4875-5144.
- HIRANO K., PORTER J. [2005], « Asymptotics for statistical decision rules », Econometrica, 71 (5), p. 1307-1338.
- HSIEH C.-T., URQUIOLA M. [2006], « The effects of generalized school choice on achievement and stratification : evidence from Chile’s voucher program », Journal of Public Economics, 90 (8-9), p. 1477-1503.
- IMBENS G., ANGRIST J. [1994], « Identification and estimation of local average treatment effects », Econometrica, 61 (2), p. 467-476.
- IMBENS G., WOOLDRIDGE J. M. [2008], « Recent developments in the econometrics of program evaluation », Mimeogr., Department of Economics, Harvard University, forthcoming in Journal of Economic Literature.
- KARLAN D. [2005], « Using experimental economics to measure social capital and predict real financial decisions », American Economic Review, 95 (5), p. 1688- 1699.
- KARLAN D., ZINMAN J. [2005], « Observing unobservables : identifying information asymmetries with a consumer credit field experiment », Working Paper 94, Department of Economics, Yale University.
- KARLAN D., ZINMAN J. [2007], « Expanding credit access : using randomized supply decisions to estimate the impacts », Mimeogr., Department of Economics, Yale University.
- KARLAN D., ZINMAN J. [2008], « Credit elasticities in less developed countries : implications for microfinance », American Economic Review, 98 (3), p. 1040-1068.
- KREMER M., HOLA A. [2008], « Pricing and access : lessons from randomized evaluation in education and health », Mimeogr., Department of Economics, Harvard University.
- KREMER M., MIGUEL E. [2007], « The illusion of sustainability », Quarterly Journal of Economics, 122 (3), 1007-1065.
- KREMER M., MIGUEL E., THORNTON R. [2007], « Incentives to learn » NBER Working Papers 10971, forthcoming in Review of Economics and Statistics.
- MANSKI C. [2000], « Identification problems and decisions under ambiguity : empirical analysis of treatment response and normative analysis of treatment choice », Journal of Econometrics, 95 (2), p. 415-442.
- MANSKI C. [2002], « Treatment choice under ambiguity induced by inferential problems », Journal of Statistical Planning and Inference, 105 (1), p. 67-82.
- MANSKI C. [2004], « Statistical treatment rules for heterogeneous populations »,Econometrica, 72 (4), p. 1221-1246.
- MCKENZIE D., WOODRUFF C. [2008], « Experimental evidence on returns to capital and access to finance in Mexico », World Bank Economic Review, 22 (3), p. 457- 482.
- MIGUEL E., KREMER M. [2004], « Worms : identifying impacts on education and health in the presence of treatment externalities », Econometrica, 72 (1), p. 159- 217.
- OLKEN B. [2007], « Monitoring corruption : evidence from a field experiment in Indonesia », Journal of Political Economy, 115 (2), p. 200-249.
- RODRIK D. [2008], « The new development economics : we shall experiment, but how shall we learn ? », Mimeogr., Department of Economics, Harvard University.
- RUBIN D. [2006], Matched Sampling for Causal Effects, Cambridge, UK : Cambridge University Press.
- THORNTON R. [2007], « The demand for and impact of HIV testing. Evidence from a field experiment », American Economic Review, 98 (5), p. 1829-1863.
- TODD P., WOLPIN K. I. [2006], « Using experimental data to validate a dynamic behavioral model of child schooling : assessing the impact of a school subsidy program in Mexico », American Economic Review, 96 (5), p. 1384-1417.
- World Bank [2008], « De nouveaux modes de gestion pour accroitre les performances de l’enseignement primaire malgache », Working Paper, World Bank.
Mots-clés éditeurs : évaluation de Programme, économie du développement, Expérimentations par assignation aléatoire
Date de mise en ligne : 08/03/2010
https://doi.org/10.3917/redp.195.0691Notes
-
[*]
Cet article est une traduction de l’article « The Experimental Approach in Development Economics », Annual Review of Economics, volume 1, numéro 1, p.151-178, 2009. La traduction a été révisée par Hélène Giacobino et Esther Duflo.
Nous remercions Guido Imbens pour les nombreuses conversations très utiles que nous avons eues ensemble, et James J. Heckman pour les commentaires détaillés qu’il a fait à la lecture de la première version de cet article. -
[**]
Department of Economics and Abdul Latif Jameel Poverty Action Lab, Massachusetts Institute of Technology, Cambridge, Massachusetts. Email : banerjee@mit.edu, eduflo@mit.edu
-
[1]
L’approche inverse, c’est-à-dire celle qui consiste à passer d’une intervention à la fois au programme complet peut également être adaptée dès lors que vos antécédents montrent que certaines combinaisons vont fonctionner, alors que l’alternative est meilleure si, d’une manière générale, vous êtes sceptique.
-
[2]
Cette souplesse n’est bien entendu pas sans limites. Les problèmes éthiques (supervisés par les Conseils Internes des Universités) et la contrainte de travailler avec une organisation de terrain impose une limite aux questions que vous pouvez poser, par rapport à ce qu’il est possible de faire avec une expérimentation en laboratoire. Tout ne peut pas être testé et tout le monde n’accepte pas d’être un cobaye. Cependant, le caractère très réaliste du cadre est un avantage énorme. Il convient de noter que les coûts moindres des programmes et que le fait de travailler avec des partenaires ONG permet d’étendre la palette d’expérimentations réalisables dans le domaine du développement, par comparaison à ce qui a été réalisable aux États-Unis.
-
[3]
On notera que les expérimentations par assignation aléatoire ne sont pas toutes à petite échelle. Par exemple, les programmes de représentation obligatoire dont nous parlons ici ont été mis en œuvre à l’échelle nationale en Inde. Alors que Duflo et Chattopdhyay [2004] recherchaient au départ deux États (très différents), Topalova et Duflo [2004] ont étendu l’analyse à tous les grands états de l’Inde.
-
[4]
En réalité, l’effet Hawthorne d’origine s’est produit durant des « expérimentations » menées sur le lieu de travail, et dans des conditions qui n’étaient pas assignées de manière aléatoire.
-
[5]
François Bourguignon et Paul Gertler, à l’époque où ils étaient respectivement Chef Economiste et Chef Economiste du Réseau Développement Humain à la Banque Mondiale, ont joué un rôle clé pour encourager ces évaluations.
-
[6]
Nous discutons de cette littérature dans Banerjee et Duflo [2005]. Pour une réponse plus détaillée à l’argument selon lequel les chercheurs devraient ne plus faire de microestimations car la seule chose qui compte c’est la croissance et que l’utilisation de données agrégées est la seule manière d’estimer les moteurs de croissance, on peut se référer à Banerjee [2008].