Couverture de ECOP_204

Article de revue

Évaluation des politiques publiques : faut-il de l’interdisciplinarité ?

Pages 193 à 209

Notes

  • [*]
    Sciences Po, Département d’Économie et Laboratoire Interdisciplinaire d’Évaluation des Politiques Publiques (LIEPP). E-mail : etienne.wasmer@sciencespo.fr
  • [1]
    Les disciplines créent des frontières (Jacobs, 2008) souvent fondées sur les méthodes ou les paradigmes. Dans le cas d’approches croisant des regards disciplinaires multiples, l’on peut proposer, comme Christine Musselin, les distinctions suivantes : plurisdisciplinarité (juxtaposition de connaissances, d’analyses, de méthodes entre plusieurs disciplines), interdisciplinarité (échange de connaissances, d’analyses, de méthodes entre plusieurs disciplines) et transdisciplinarité (effacement des frontières entre les disciplines). Jacobs (2008) définit la multidisciplinarité comme des recherches opérant en parallèle mais sur des sujets similaires, comme la définition de la pluridisciplinarité ci-dessus, et insiste, dans le cas de l’interdisciplinarité, sur les collaborations à partir de perspectives différentes.
  • [2]
    La diffusion de ces méthodes en France s’est accélérée récemment, comme en témoignent par exemple les deux numéros spéciaux de 2011 et 2012 de la Revue Française d’Économie sur l’évaluation des politiques publiques. Il est intéressant de constater qu’aucun des articles de ces deux numéros ne fait appel à une autre discipline ni n’en évoque. Les deux introductions de ces numéros (Langot et Petit, 2011 et 2012) et l’article de synthèse de L’Horty et Petit (2011) se consacrent surtout au débat “randomisation” ou “estimations structurelles” et aux questions éthiques des méthodes d’assignation aléatoires. Ils n’abordent pas la question de l’interdisciplinarité, quand bien même plusieurs des auteurs de ces deux numéros la pratiquent parfois sur des sujets ponctuels.
  • [3]
    « It is a major advance in our understanding of expert judgment in the vitally important and almost impossible task of possible and strategic forecasting » (source : quatrième page de couverture de Tetlock, 2005).
  • [4]
    Il existe des hérissons sans piquants en Asie (gymnures).
  • [5]
    « Thinkers who know one big thing, aggressively extend the explanatory reach of that one big thing into new domains, display bristly impatience with those “who do not get it” and express considerable confidence that they are already pretty proficient forecasters, at least in the long run »- citation extraite de Tetlock (2005).
  • [6]
    « Thinkers who know many small things, are sceptical of grand schemes, see explanation and prediction not as deductive exercises but rather as exercises in flexible “ad hocery” that require stitching together diverse sources of information, and are rather diffident about their own forecasting prowess and rather dubious that the cloudlike subject of politics can be the object of a clocklike science »- citation extraite de Tetlock (2005).
  • [8]
    Un économiste en faisant la lecture détaillée ferait certainement un intéressant “rapport d’étonnement”. Ainsi, le texte est souvent très imagé (comme en témoignent les classifications énoncées ci-dessus), ce qui peut déconcerter. Il est aussi parfois très simplificateur (le message principal en est d’autant mieux mis en valeur) et il est presque impossible de comprendre ce qui est précisément fait sans lire en détail les annexes méthodologiques, qui représentent 73 pages sur les 238 du texte principal, soit 30 % du texte.
  • [9]
    L’article 1er du décret 90-82 du 22 janvier 1990 relatif à l’évaluation des politiques publiques indique ainsi que « L’évaluation d’une politique publique au sens du présent décret a pour objet de rechercher si les moyens juridiques, administratifs ou financiers mis en œuvre permettent de produire les effets attendus de cette politique et d’atteindre les objectifs qui lui sont assignés ».
  • [10]
    On pourrait cependant imaginer qu’il s’entoure de coéditeurs à la frontière des différentes disciplines. Cependant, comme ceux-ci prennent en général leur décision sur la base de deux, voire trois, avis de rapporteurs différents dans leur discipline, les coûts de transaction risquent d’être prohibitifs, sauf à relâcher les exigences.
  • [11]
    Ainsi, comme cela a été développé notamment dans Ferracci et Wasmer (2012), de nombreux dispositifs publics sont nationaux, ce qui ne permet pas une évaluation par différence régionale. D’autres sont expérimentés localement mais pas de façon aléatoire, ou encore sont fluctuants dans le temps, ce qui rend l’évaluation difficile faute de recul. Enfin, il se peut que les politiques soient annoncées longtemps avant d’être mises en œuvre. Il est alors difficile de dissocier l’effet d’anticipation de l’effet d’implémentation, qui, de surcroît, est diffus dans le temps.
  • [12]
    L’argument selon lequel il est plus difficile d’évaluer la valorisation que la science elle-même est parfois avancé. À la réflexion, il ne peut que paraître surprenant. Il est bien plus difficile d’évaluer un article soumis à Econometrica que de juger de la qualité d’un rapport scientifique. C’est une question d’incitations et on peut du reste imaginer d’organiser une évaluation de l’expertise et de la valorisation dans les carrières.
  • [13]
    NDLR : sur la place des chercheurs dans l’évaluation des politiques publiques, voir aussi Gregoir (2014), dans ce numéro.
  • [14]
    Un exemple de ceci est la clause d’accord préalable avant diffusion des résultats que certaines administrations font figurer dans les conventions avec les équipes de recherche. La charte dite des trois Labex (pour laboratoires d’excellence) adoptée en mars 2012 par le Laboratoire Interdisciplinaire d’Évaluation des Politiques Publiques (LIEPP) à Sciences-Po, l’Institut des Politiques Publiques (IPP) à l’École d’Économie de Paris et l’Institut D’Économie Publique (IDEP) à Aix-Marseille (disponible sur le site de ces institutions) interdit formellement de telles clauses. On trouve une analyse poussée de ces interactions entre les trois mondes dans Lascoumes et Setbon (1996). Leur thèse était que l’administration et les inspections ont toujours tenté d’être les évaluateurs des politiques publiques. Depuis, l’on peut observer des évolutions très positives d’un rapprochement marqué entre monde de la recherche et monde de l’administration dans de nombreux secteurs, certaines inspections jouant un rôle pionnier.
  • [15]
    Par exemple, lorsque Thomas Piketty (Piketty, 2001) a analysé la dynamique des inégalités sur le long terme dans les milliles supérieurs de la distribution des revenus, son apport premier n’était pas dans les techniques utilisées, disponibles et facilement mobilisables au sein des administrations. Il résidait dans l’intuition que ces données révèleraient des faits importants et des enseignements précieux sur l’interaction entre la fiscalité et les inégalités, et que cet agenda devait être central. Les administrateurs peuvent ne pas pouvoir se lancer dans des travaux de cette ampleur s’il n’y a pas les moyens ou la volonté politique de le faire.
  • [16]
    Certains reconnaîtront ici l’objection de Charles Péguy « Le kantisme a les mains pures, mais il n’a pas de mains. » (Pensées, octobre 1910) à l’impératif catégorique de Kant.
  • [17]
    Pour illustrer les difficultés des sciences sociales à communiquer, on pourrait se souvenir de ce que l’étape de constitution d’un langage en économie a été une raison majeure de l’établissement d’un savoir codifié commun. Dans le cadre de la mission Fitoussi sur l’enseignement de l’économie de 2001, L’économiste Robert Solow rapportait que, lorsqu’il débutait sa carrière, les économistes de différents pays utilisaient des termes identiques pour des concepts différents et que les premières étapes de discussion étaient de s’assurer que les concepts utilisés étaient identiques, ce que la synthèse néoclassique a permis de réaliser. Une telle étape de constitution d’un langage commun entre différentes sciences sociales reste à franchir.
  • [18]
    De même que la psycho-histoire rêvée par l’auteur de science fiction Isaac Asimov permettait la prévision de l’avenir en alliant mathématiques, sciences sociales et histoire, la prise en compte des facteurs politiques, juridiques et sociologiques de la mise en œuvre d’une politique publique pourrait constituer le Graal du modélisateur structurel dans son approche ex ante !

1 L’évaluation des politiques publiques est devenue un champ de recherche très actif en sciences sociales, dont les travaux influencent de plus en plus les décisions publiques. Le choix de la méthodologie d’évaluation se pose dès lors avec plus d’acuité qu’elle n’est pas toujours neutre. Plus précisément, nous discutons des avantages et des inconvénients de l’interdisciplinarité lorsqu’il s’agit de porter un diagnostic pertinent. Par pertinent, nous entendons qui soit à la fois : de portée opérationnelle, exact empiriquement, démontré scientifiquement et tenant compte des effets informels, systémiques et difficilement quantifiables mais qui sont parfois de premier ordre pour évaluer de façon complète.

2 Or, ces différents objectifs d’une évaluation ne sont pas toujours atteints simultanément, que ce soit en économie ou dans les autres sciences sociales. Dans cette contribution, nous essayons de décrire les avantages et les inconvénients des éclairages multiples sur les politiques publiques lorsque différentes disciplines de sciences humaines se confrontent dans le cadre de l’interdisciplinarité. La contribution pose aussi la question de la logique de cette démarche, dont l’aboutissement serait un effacement des frontières disciplinaires dans le cas de la transdisciplinarité.

3 S’il existe, d’une part, une littérature assez vaste sur l’évaluation et l’interdisciplinarité en dehors de la science économique et, d’autre part, des méthodologies d’évaluation depuis longtemps développées en son sein, la science économique ne s’est pas réellement emparée de cette question de l’interdisciplinarité : elle semble déjà avoir suffisamment à faire avec la résolution des débats entre expériences contrôlées et estimations de modèles structurels.

4 De fait, les disciplines créent leurs frontières souvent fondées sur les méthodes ou les paradigmes. Dans le cas d’approches croisant des regards disciplinaires multiples, l’on peut proposer les distinctions suivantes : pluridisciplinarité (juxtaposition de connaissances, d’analyses, de méthodes entre plusieurs disciplines), interdisciplinarité (échange de connaissances, d’analyses, de méthodes entre plusieurs disciplines) et transdisciplinarité (effacement des frontières entre les disciplines).

5 Dans cette contribution, nous faisons état de recherches en science politique et psychologie sur la capacité prédictive des experts. Ces recherches suggèrent que des experts de science politique et d’économie semblent avoir de moins bons résultats prédictifs lorsque qu’ils sont plus spécialisés, alors que les variables attendues (le fait de détenir un doctorat, le nombre d’années d’expérience professionnelle, l’accès à des données privilégiées ou, encore, l’auto-évaluation de sa compétence par rapport à la question posée) n’apparaissent pas comme des variables déterminantes du succès prédictif.

6 Dans un second temps, nous discutons de l’extrapolation de ce résultat à l’évaluation des politiques publiques, puis nous passons en revue les coûts de transaction générés par les échanges interdisciplinaires. La question du langage commun est essentielle : le dialogue interdisciplinaire achoppe rapidement sur des questions de base, comme les concepts normatifs familiers aux économistes et qui sont contestés dans les autres disciplines de sciences sociales. Enfin, nous discutons des principes d’organisation de la science et de la tension qui existe entre le besoin de spécialisation pour la gestion des carrières et les gains de l’ouverture interdisciplinaire.

7 La conclusion est que le but ultime de l’évaluation des politiques publiques devrait être de pouvoir quantifier au sein de modèles de prévision ex ante la subtilité du contexte et les enjeux de la mise en œuvre des mesures de politiques publiques, telles qu’elles sont analysées par les différentes sciences sociales. Cet article en reste à ce stade et n’a d’autre but que de susciter une réflexion de fond sur les enjeux scientifiques liés à l’évaluation des politiques publiques.

8 L’évaluation des politiques publiques est un grand enjeu démocratique. Les dépenses publiques dépassent la moitié du PIB et la question de leur efficacité est centrale : les dépenses qui ne sont pas “efficaces” pour la collectivité, en un sens qu’il convient de définir avec soin, sont de facto un simple transfert de ressources vers des groupes constitués. Comprendre l’inefficacité d’une politique permet dès lors de rendre transparent le fait qu’il s’agisse d’un transfert de ressources. Pour ne prendre qu’un exemple, l’argument principal avancé en faveur des aides à la pierre est qu’elles favorisent le cycle économique (« quand le bâtiment va, tout va »). Toutefois, l’efficacité de ces aides est rarement évaluée, a fortiori quasiment jamais comparée à d’autres usages des fonds publics, qui pourraient servir à alléger les charges et les impôts dans tous les secteurs ou à favoriser les investissements de long terme en éducation ou en recherche et développement.

9 En outre, des dépenses publiques qui ne contribuent pas à l’efficacité et dont le rendement propre est inférieur au taux d’intérêt augmentent la dette publique. Cette dette est passée aux générations futures et sa gestion constitue l’un des éléments du contrat intergénérationnel qui lie les différentes parties de la collectivité nationale. Ces générations doivent donc connaître le rendement des dépenses publiques.

10 Enfin, l’efficacité de la dépense publique dans un contexte de crise des dettes souveraines en Europe prend une nouvelle importance. Lorsque des coupes budgétaires drastiques doivent avoir lieu comme dans certains pays sud-européens, l’idéal serait d’avoir assez d’information pour sanctuariser les dépenses dont le rapport coût bénéfice est le plus avantageux.

11 Ces principes semblent aller de soi pour la plupart des chercheurs en sciences sociales ; toutefois se pose alors la question du choix de la méthodologie d’évaluation. Plus précisément, dans cette contribution, nous essayons de répondre à la question : quelle est la nécessité d’éclairages multiples sur les politiques publiques par différentes disciplines au sein des sciences humaines, c’est-à-dire l’interdisciplinarité ? Faut-il aller jusqu’à un effacement des frontières disciplinaires (cas de la transdisciplinarité) [1] ? Cette question doit être posée. En effet, s’il existe, d’une part, une littérature assez vaste sur l’évaluation et l’interdisciplinarité en dehors de la science économique et, d’autre part, des méthodologies d’évaluation depuis longtemps développées au sein de la science économique, cette dernière ne s’est pas réellement emparée de cette question de l’interdisciplinarité. Elle semble déjà avoir suffisamment à faire avec la résolution des débats entre expériences contrôlées et estimations de modèles structurels [2].

12 Dans la première partie de cette contribution, nous faisons un détour par la science politique et la psychologie pour résumer les enseignements d’un ouvrage important de Philip E. Tetlock (2005) sur la capacité prédictive des experts. Cet ouvrage suggère que des experts de science politique et d’économie semblent avoir de moins bons résultats prédictifs lorsque leurs modes de raisonnement sont plus étroits ou centrés sur un seul paradigme (l’auteur désigne ce type d’experts sous la terminologie de “hedgehogs” - cf. infra). Dans la deuxième partie de notre article, tout en reconnaissant que l’évaluation diffère de la prévision, nous discutons de l’extrapolation du résultat de Tetlock (2005) à l’évaluation des politiques publiques. Dans la troisième partie, nous passons en revue les coûts de transaction générés par les échanges interdisciplinaires et discutons des principes d’organisation de la science et de la tension qui existe entre le besoin de spécialisation pour la gestion des carrières et les gains de l’ouverture interdisciplinaire. En conclusion, nous résumons les obstacles et suggérons que le but ultime de l’évaluation des politiques publiques devrait être de pouvoir quantifier, au sein de modèles d’évaluation ex ante, la subtilité du contexte et les enjeux de la mise en œuvre des mesures de politiques publiques, tels qu’ils sont analysés par les différentes sciences sociales. Cet article reste à ce stade prospectif : il contient de nombreuses spéculations et fait part d’expériences concrètes de la démarche interdisciplinaire. Il n’a d’autre but que de susciter une réflexion de fond sur les enjeux scientifiques liés à l’évaluation des politiques publiques.

La prévision politique et stratégique analysée par un psychologue

Mesurer le succès (ou l’insuccès) prédictif des experts

13 Philip E. Tetlock, du département de psychologie de l’Université de Pennsylvanie, s’est lancé dans un projet très ambitieux consistant à suivre, au travers de questionnaires entre 1987 et 2003, plus de 20 000 prévisions de 284 “experts”, puis à les analyser rétrospectivement. Il a résumé ses travaux dans un ouvrage magistral et original, Expert Political Judgment, paru en 2005. Cet ouvrage a été récompensé par le prix Woodrow Wilson de l’American Political Science Association en 2005. Selon Daniel Kahneman [3], il s’agissait d’une avancée considérable dans la connaissance sur le jugement des experts en matière d’analyse et de prévision stratégiques.

14 Un expert est défini dans cet ouvrage comme « un professionnel qui vit de commentaires ou de conseils sur les tendances économiques et politiques sur des États, des régions du monde ou sur le système international dans son ensemble ». 76 % de ces experts étaient des hommes, en moyenne de 43 ans. 52 % étaient titulaires d’un diplôme doctoral. 41 % étaient universitaires. 26 % travaillaient pour le gouvernement, 17 % pour des think tanks et des fondations, 8 % pour des institutions internationales et 8 % dans le secteur privé. Ils ont été interrogés sur des sujets tels que la stabilité du pouvoir politique de différents pays (60 au total), leurs performances économiques et la politique de défense. Les prévisions collectées portaient majoritairement sur la zone géographique de compétence des experts, les prévisions de ces derniers étant alors qualifiées de prévisions “expertes”. Certaines des questions étaient posées, à titre de comparaison, sur un ou deux pays éloignés de la zone de compétence des experts, les prévisions de ces derniers étant alors qualifiées de “dilettantes”.

15 La méthodologie de Tetlock consiste tout d’abord à codifier le degré de certitude d’une prédiction d’un expert sous forme de probabilité subjective. Tetlock classe ainsi les prédictions des experts sur une échelle allant de 0 à 1. Le degré de certitude peut être la certitude absolue (pS = 1) ou, à l’autre extrême, l’impossibilité perçue de la réalisation du scénario analysé (pS = 0), en passant par toutes les valeurs intermédiaires : une probabilité subjective pS = 0,1 est associée à “très improbable”, pS = 0,33 à “assez improbable”, etc.

16 La seconde étape consiste à mettre ces prédictions en correspondance avec le résultat des prédictions. Tetlock construit un indicateur de fréquence objective fondé sur l’agrégation des prédictions d’un expert par catégorie de fréquences et sur la comparaison avec les résultats observés. Ainsi, par exemple, si un expert a prédit que N évènements se produiraient avec une probabilité de 0,8, on peut vérifier a posteriori si, en moyenne, ces évènements se sont produits 80 % du temps (dans ce cas, la fréquence objective et la probabilité subjective sont parfaitement alignées) ou avec une fréquence moindre ou, au contraire, supérieure (l’alignement entre la fréquence objective et la probabilité subjective est alors imparfait). Cette méthode est reproduite pour toutes les fréquences regroupées par intervalles (0 %, 10 %, 20 %, etc.). Elle conduit, par groupe de fréquences, à une série de points, tels que représentés dans le graphique 1. L’ensemble de la procédure est décrite dans l’annexe de l’ouvrage de Tetlock, pages 239 à 311.

17 Le résultat de la mise en correspondance des probabilités subjectives et des fréquences objectives est donc représenté sur le graphique 1 pour différents groupes. L’axe horizontal représente les probabilités subjectives, l’axe vertical les fréquences objectives. Un expert “incertain” ou “prudent” dans ses analyses serait positionné pour chacune de ses prédictions le long d’un axe vertical coupant l’axe des abscisses à x = 0,5. Un expert “tranché” dans ses conclusions serait au contraire positionné selon des axes verticaux coupant l’axe des abscisses à x = 0 ou x = 1. La mise en correspondance des prédictions et de leur caractère tranché ou non avec la réalité telle qu’elle est mesurée par les fréquences objectives permet de tracer un nuage de points par experts. Ces points sont ensuite regroupés en prenant la moyenne par groupe et type de questions. La représentation sur le graphique 1 résume les résultats obtenus en moyenne pour différents groupes de personnes interrogées.

18 Le premier groupe, qui pourrait servir de groupe témoin, est celui d’étudiants de premier cycle, qui ont aussi participé à l’étude de Tetlock. Le deuxième groupe est celui des experts lorsqu’ils se prononcent en dehors de leur zone traditionnelle d’analyse : ce sont les analystes qualifiés de “dilettantes”. Le troisième groupe est celui constitué des réponses des experts interrogés sur leur domaine exact de compétence. La droite à 45 degrés est celle, idéale, de l’adéquation parfaite entre les prévisions subjectives et les fréquences objectives.

19 Quatre faits intéressants ressortent du graphique 1. D’une part, les pentes sont toutes globalement positives : les prévisions sont en moyenne corrélées à leur réalisation. Deuxièmement, les étudiants se trompent plus systématiquement que les experts, que ceux-ci se prononcent sur leur domaine de compétence privilégié ou non. Le troisième, plus troublant, est que les experts dans leur domaine ne font pas nettement mieux que ces mêmes experts lorsqu’on les interroge sur un terrain éloigné de leur domaine de compétence. Ceci suggère qu’un expert peut parler aussi bien (ou parfois aussi mal) de thèmes qu’il connaît que de thèmes qu’il ne maîtrise pas aussi bien. Enfin, on observe un biais classique concernant les évènements quasi certains : en moyenne, les réponses dans les trois groupes sont au-dessus de la droite à 45 degrés à gauche du graphique (pour des probabilités subjectives faibles, inférieures à 0,33) et en-dessous pour des probabilités subjectives supérieures à 0,4. Cela signifie notamment que les personnes interrogées jugent impossibles des événements à faible probabilité s’étant finalement réalisés ou au contraire, qu’ils jugent certains des événements ne s’étant finalement pas réalisés. Une interprétation est celle de la mauvaise représentation des petites probabilités, dans le prolongement de Kahneman et Tversky (1979) et de leur prospect theory. En effet, on observe souvent que les individus ont tendance à systématiquement sous-estimer les faibles probabilités et surestimer les fortes probabilités.

20 Ces résultats indiquent tout d’abord que la spécialisation d’un expert n’apporte finalement pas autant qu’on aurait pu s’y attendre en termes de succès prédictif. Pour autant, ils suggèrent que cette spécialisation a un autre rôle : celui de développer une capacité à analyser des faits. Cette capacité améliore en effet le succès prédictif dans plusieurs domaines d’analyse, que ce soit dans le domaine de spécialisation ou dans des domaines connexes. Elle permettrait donc de prévoir mieux que des personnes informées mais n’ayant pas encore pleinement développé cette capacité d’analyse (comme dans le groupe des étudiants).

Graphique 1

correspondance entre les probabilités subjectives et les fréquences objectives des prédictions de différents groupes d’experts

figure im1
Fréquence objective
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Probabilité subjective
Calibrage parfait Prévisions "dilettantes"
Prévisions "expertes" Étudiants de premier cycle

correspondance entre les probabilités subjectives et les fréquences objectives des prédictions de différents groupes d’experts

Tetlock (2005).

Les déterminants individuels du succès prédictif

21 Dans une seconde étape, Tetlock analyse les déterminants individuels du succès prédictif au regard d’une analyse de corrélation (deuxième colonne du tableau 1) et d’une régression multivariée (deux dernières colonnes du tableau 1) portant sur un sous-échantillon de 177 experts pour lesquels les informations individuelles sont disponibles au complet. Si l’on en croit ces résultats, nombre de caractéristiques individuelles n’ont aucun impact : le fait de détenir un doctorat, le nombre d’années d’expérience professionnelle, l’accès à des données privilégiées ou encore l’auto-évaluation de sa compétence par rapport à la question posée n’apparaissent pas comme des variables déterminantes du succès prédictif. Il en est de même pour le fait de réaliser des travaux académiques (emploi universitaire), l’absence de contacts avec les media et le fait d’être une femme.

22 Les orientations idéologiques ou philosophiques de l’expert, mesurées par une série de questions spécifiques dans une partie préliminaire des questionnaires de Tetlock, n’auraient également pas d’impact déterminant sur le succès prédictif ex post. C’est notamment le cas de l’orientation gauche-droite ou du caractère plutôt idéaliste ou au contraire réaliste de la pensée des experts (on renverra à l’annexe de l’ouvrage de Tetlock pour la description de cette échelle de valeurs fondée sur 13 questions sur les croyances des personnes interrogées). En revanche, le fait d’être d’inspiration “croissantiste” ou “décroissantiste” aurait un effet fort sur les capacités prédictives. Cette dimension est définie comme le fait d’être optimiste vis-à-vis de l’avenir de l’humanité pour ce qui concerne les ressources naturelles ou la capacité du progrès technologique à gérer la croissance, par opposition à une vision plus malthusienne de l’avenir. D’après l’analyse de Tetlock, les décroissantistes auraient eu tendance à avoir raison (non pas sur leur malthusianisme, mais en matière de succès prédictif aux questions sur le contexte politique, économique et stratégique des zones qu’ils ont analysées sur la période couverte par l’étude).

Tableau 1

déterminants individuels du succès prédictif (caractéristiques démographiques et professionnelles, orientations idéologiques, traits cognitifs)

Précision des prédictions
Prédicteurs des différences individuelles Corrélations Coefficients standardisés Écarts-types
I : Contrôles
(a) Niveau d’étude (thèse = 1 ou non = 0) +0,02 +0,001 0,03
(b) Années d’expérience (de1 à 36) +0,00 +0,02 0,03
(c) Emploi universitaire (= 1) ou non (= 0)  -0,03 +0,05 0,04
(d) Accès à des informations privilégiées (= 1) ou non (= 0) +0,02 +0,01 0,05
(e) Exposition aux media (de 1 à 7, de jamais à chaque semaine)  -0,12  -0,09 0,08
(f) Genre (femme =1, homme = 0) +0,05 +0,08 0,08
(f) Auto-évaluation de sa propre expertise +0,09 +0,03 0,07
II : Orientation idéologique
(a) Gauche-Droite +0,07 +0,01 0,05
(b) Idéaliste-Réaliste +0,06  -0,03 0,06
(c) Décroissantiste (= 0) - Croissantiste (= 1) +0,20*  -0,12* 0,04
III : Style cognitif
(a) Hedgehog-Fox (hérisson = 0 - renard = 1) +0,35** +0,29** 0,04
(b) Integratively complex thought protocols
(schémas de raisonnement complexes)
+0,31 +0,25** 0,05
(c) Positions modérées (= 0) ou extrêmes (= 1) +0,30 +0,09 0,06
figure im2

déterminants individuels du succès prédictif (caractéristiques démographiques et professionnelles, orientations idéologiques, traits cognitifs)

Lecture : * = significatif à 5 %, ** = significatif à 1 %. R 2 ajusté = 0,29 (nombre d’observations = 177). Les coefficients standardisés sont les estimations résultant d’une analyse réalisée sur des régresseurs centrés-réduits. Ainsi, les coefficients standardisés expriment la modification de la variable dépendante en nombre d’écarts-types suite à un changement d’un écart-type de la variable explicative correspondante. Les écarts-types en dernière colonne sont les écarts-types estimés des coefficients standardisés.
Tetlock (2005).

23 Toutefois, c’est dans la partie basse du tableau 1 que se trouve le résultat majeur de l’analyse de Tetlock. En effet, cette partie indique que ce sont en fait les modes de raisonnement et, plus particulièrement, les traits cognitifs des experts qui rendent le mieux compte de leur capacité à prédire correctement l’avenir proche des zones qu’ils analysent. Plus précisément, une dimension des traits cognitifs ressort significativement : un sous-groupe d’experts appelé “foxes” (renards) a de meilleurs résultats (avec une différence significative au seuil de 1 %) que le second sous-groupe d’experts, qualifiés de “hedgehogs” (qui sont des hérissons à piquants [4]).

24 Quelle est cette typologie et quelles sont les caractéristiques des hérissons et des renards ? Selon Tetlock, les hérissons sont des penseurs qui fondent leur analyse sur une grande “idée” (un dogme, un principe) et étendent ensuite ce principe à de nombreux autres domaines. Ils sont peu enclins à composer avec ceux qui ne perçoivent pas ce raisonnement. Ils sont en outre assez sûrs de leur capacité prédictive [5]. Les renards sont au contraire des penseurs qui accumulent des informations et des raisonnements variés, qui ne croient pas aux grands schémas explicatifs, qui sont plus inductifs et parfois ad hoc dans leurs modes de raisonnement et sont, enfin, plus sceptiques quant à leurs propres capacités prédictives [6].

25 Cette classification des schémas mentaux est inhabituelle et peut sembler subjective. On laissera du reste le lecteur faire au préalable le test de s’y placer soi-même puis d’y positionner les experts qu’il côtoie régulièrement, que ce soit professionnellement ou dans les media. Pour autant, cette grille d’analyse des traits cognitifs est fondée sur des éléments plus quantifiés qu’il n’y paraît. Une analyse factorielle avec rotation des facteurs décrite dans le tableau 2, colonne (I), détaille la liste des déterminants de la dimension renards/hérissons. Le renard est d’abord celui qui s’identifie comme tel (première ligne), qui n’aime pas les explications simples (ligne 3) mais qui apprécie au contraire les questions qui permettent plusieurs réponses (ligne 8) ou qui accepte l’idée que, dans les conflits, les deux parties peuvent avoir raison (ligne 10). Il est, enfin, celui qui apprécie relativement plus que son collègue hérisson le fait de pouvoir interagir avec des gens qui pensent différemment de lui (ligne 12). Le hérisson pense plus fréquemment que la politique peut se décrire comme un mécanisme d’horlogerie (ligne 4, clocklike, ce que nous pouvons interpréter comme relevant d’une science analysant les mécanismes déterministes) plutôt qu’une science floue (cloudlike).

Tableau 2

analyse des déterminants individuels des dimensions cognitives analysées

Poids factoriels (après rotation)
Traits Hérisson-Renard
(I)
Capacités à décider (Decisiveness factor)
(II)
1. Auto-identification comme renard ou hérisson (définition de Berlin) 0,42 - 0,04
2. Je commets parfois des erreurs de jugement en exagérant la complexité du monde - 0,20 0,14
3. Je préfère des modèles simples pour expliquer les processus politiques - 0,29 0,05
4. La politique est un phénomène qu’on peut décrire comme incertain et diffus (cloudlike) plutôt que comme un mécanisme d’horlogerie ou déterministe (clocklike) 0,26 - 0,02
5. Je commets parfois des erreurs en abandonnant trop vite une bonne idée - 0,31 0,22
6. Avoir des règles précises et une bonne organisation au travail est la clé du succès - 0,09 0,31
7. Même après m’être décidé, je suis toujours disposé à entendre une autre opinion 0,28 - 0,07
8. Je n’aime pas les questions qui conduisent à des réponses multiples et variées - 0,35 0,05
9. Je prends des décisions rapidement et en confiance - 0,23 0,26
10. Dans la plupart des discussions, je perçois la façon dont les deux côtés peuvent avoir raison simultanément 0,31 0,01
11. Il est irritant d’écouter les gens qui ne peuvent se décider - 0,18 0,14
12. Je préfère interagir avec les gens dont les opinions diffèrent des miennes 0,23 - 0,10
13. En essayant de résoudre un problème, je suis perturbé parce que je perçois différentes solutions contradictoires 0,08 - 0,27
figure im3
[7] NDLR : pour plus de détails sur les concepts, le lecteur pourra se reporter par exemple à “Techniques exploratoires multivariées : analyse factorielle avec rotation des facteurs... Une alternative à l’ACP [analyse en composantes principales]”, Statsoft
(http://www.statsoft.fr/concepts-statistiques/analyse-factorielle/analyse-factorielle.php#. VlMiXnKFO71).

analyse des déterminants individuels des dimensions cognitives analysées

Lecture : en lignes sont représentés les différents déterminants du style de raisonnement sur lesquels a été réalisée l’analyse factorielle. Les nombres représentés sont les poids factoriels, qui indiquent les plus ou moins fortes corrélations entre les items et chacun des deux facteurs représentés en colonnes (I) et (II). Il s’agit de poids factoriels calculés après rotation de la structure factorielle (cette rotation permettant d’obtenir une structure factorielle plus aisément interprétable) [7]. En colonne (I), un poids plus nettement positif (respectivement plus nettement négatif) reflète un profil cognitif plus proche du type Renard (respectivement du type Hérisson). En colonne (II), un poids plus nettement positif (respectivement plus nettement négatif) reflète des capacités à décider plus (respectivement moins) marquées.
Tetlock (2005).

26 La conclusion de Tetlock est sans ambiguïté : les prédictions les plus précises proviennent des experts qui combinent des informations de sources d’origines différentes (« Most accurate predictions came from policy experts who combined insights from a variety of sources »).

27 Analyser plus en détail la méthodologie dépasse le cadre de cet article et le lecteur pourra se reporter directement à l’ouvrage [8]. Il serait à ce stade téméraire de vouloir inférer les enseignements de cet ouvrage au domaine différent que nous couvrons dans cet article, les évaluations de politiques publiques par les experts de différentes sciences sociales (voir notamment les limites de cette généralisation infra et dans Musselin, 2013). Néanmoins, cet ouvrage pose selon nous les bonnes questions sur un point clé. Les experts qui donnent leur avis sur des questions sociales de grande importance, que ces questions soient limitées à des mesures d’efficacité d’une politique publique ou qu’elles soient plus globales, comme sa pertinence dans un contexte donné, ne doivent pas seulement être rigoureux scientifiquement. Il faut en outre savoir si leur avis est en moyenne vérifié par l’expérience et avec le recul ou si, au contraire, ces experts se trompent régulièrement, quelles que soient leurs qualités scientifiques et la rigueur de leurs méthodes.

28 Ainsi, pour ce qui ne concernerait que les experts économistes européens, des recherches passionnantes pourraient être menées sur des bases similaires à celles de Tetlock (2005). On pourrait réaliser notamment d’intéressants travaux, d’une part sur ce que les experts disaient à différents moments clés des dernières décennies, d’autre part sur le mode de raisonnement, la formation initiale et les méthodes employées par ces experts lorsqu’ils ont conseillé les décideurs ou sont intervenus publiquement dans les débats. Par exemple, on pourrait documenter les diagnostics consistant :

29

  • après le premier choc pétrolier, à proposer une relance de l’activité économique ;
  • en France en 1981, à vouloir réduire l’âge de la retraite ;
  • au début de 2007, à nier l’existence de tensions dans le monde de la finance et à croire en la nécessité de ne pas trop la réguler ;
  • à recommander l’utilisation systématique du déficit public comme arme de lutte contre la récession, tout en minimisant les tensions sur les finances publiques et les capacités d’emprunt des États ;
  • ou, a contrario, à croire en la nécessité de mener des politiques d’austérité automatiques sans prise en compte des effets récessifs, comme en Grèce.

30 Ce recensement pourrait faire l’objet de discussions passionnantes sachant que, dans au moins deux cas sur les cinq cités ci-dessus, il est difficile de dire qu’un consensus se soit totalement établi.

L’application de cette grille d’analyse à l’évaluation des politiques publiques

31 L’objet du reste de l’article est de tenter de tirer des leçons de l’analyse de Tetlock (2005) en ce qui concerne l’évaluation des politiques publiques. Cette extrapolation potentielle appelle plusieurs remarques. D’une part, elle implique de définir l’évaluation des politiques publiques. On peut distinguer l’évaluation ex ante (i.e. avant mise en place des politiques), l’évaluation ex post (étude d’impact) et l’évaluation liée à la mise en œuvre, l’analyse de la contextualisation ainsi que la méta-réflexion sur la non-neutralité de l’évaluation scientifique. La définition que l’on trouve le plus couramment est plus générale, plus vague aussi : il s’agit « d’analyser si une politique publique donnée a atteint les objectifs qui lui étaient assignés initialement », sans d’ailleurs que les notions de causalité et de contrefactuels ne soient nécessairement mises en avant [9].

32 Ce qui semble le plus directement lié à l’analyse de Tetlock serait l’analyse ex ante (“prévision”) combinée à l’analyse ex post (“résultats”) et la mise en relation entre les deux. Ainsi, les deux axes des probabilités subjectives et fréquences objectives du graphique 1 pourraient être remplacés par les évaluations ex ante et les évaluations ex post.

33 Néanmoins, la question est plus complexe qu’il n’y paraît, pour deux raisons. D’une part, la transposition précédente suggérerait à tort que l’analyse ex post est objective et contiendrait moins d’erreurs que l’analyse ex ante, puisqu’elle validerait ou invaliderait les évaluations ex ante. Tout praticien de l’analyse ex post sait pourtant toutes les difficultés liées à l’identification des mécanismes de causalité, que ce soit de façon empirique quantifiée ou plus qualitative, et les nombreuses hypothèses parfois arbitraires – et qui devraient être toujours transparentes – qu’il faut faire pour parvenir au résultat.

34 D’autre part, les aspects liés à la mise en œuvre, à la contextualisation et aux diverses méta-réflexions permettent justement d’affiner les diagnostics ex post mais aussi ex ante et, donc, ne sont pas dissociables de ces deux dimensions de l’évaluation des politiques publiques.

35 C’est précisément pour cette seconde raison qu’il nous semble fructueux de postuler la transposabilité de l’enseignement de Tetlock à notre question, fut-ce temporairement et avec toutes les réserves de rigueur. L’analyse des politiques publiques requiert les éclairages de différentes disciplines pour être de meilleure qualité. Ce point de vue n’est pas unanime. Certains estiment que seule l’économétrie (ou a fortiori, seule une expérience aléatoire) permet de donner un avis informé sur les mécanismes causaux d’une politique publique, ignorant du reste qu’une partie de la sociologie cherche justement à mettre en évidence ces facteurs de causalité. D’autres domaines disciplinaires estiment à l’inverse qu’une analyse causale en sciences sociales est non seulement impossible, mais constitue un danger, car les chiffres exercent un attrait qui peut faire oublier les biais ou la fragilité des données ou de leurs interprétations.

36 Ces précautions prises, il est possible de mener une réflexion sur le mode d’organisation de la recherche lorsque celle-ci associe différents points de vue.

Les besoins contradictoires de l’évaluation : scientificité et demande sociale

37 Dans les débats sur le besoin d’approches disciplinaires croisées, des perspectives différentes s’opposent régulièrement. Pour certains, l’interdisciplinarité devrait réunir plusieurs mono-disciplines qui s’associent de façon ponctuelle pour traiter d’un objet. Ce croisement peut être fécond lorsque l’objet est précis, mais il est plutôt l’exception. Jacobs (2008) déplore ainsi que la pratique de l’évaluation ne soit pas à la hauteur des attentes ou des ambitions affichées en la matière.

38 D’autres plaident au contraire pour l’émergence d’une nouvelle discipline, organisée comme telle. C’est notamment le credo de plusieurs membres de la Société Française d’Évaluation. Certains points de vue sont intermédiaires entre ces deux visions opposées, mais penchent pour la constitution d’une méta-discipline ou d’une transdiscipline de l’évaluation. Maurice Baslé (2008, pp. 6 et 7) écrit ainsi que « L’évaluation a les caractéristiques d’une “cross-sectional science”. Elle est une transdiscipline comme la Statistique. […]. L’émancipation des évaluateurs suppose aussi une reconnaissance desévaluateurs-chercheurs, une réorganisation de la recherche correspondante […] ». Cette méta-évaluation devrait suivre un certain nombre de critères définis par exemple dans Scriven (2010) : la validité, la clarté, la crédibilité, l’éthique, le caractère général, encore que ces critères ne soient bien entendu pas propres à une transdiscipline mais s’appliquent de facto à toute évaluation disciplinaire. Baslé (2008) poursuit en associant implicitement la spécialisation disciplinaire avec l’absence de facto des chercheurs et académiques dans le champ de l’évaluation. « Ceci est loin d’être le cas en France particulièrement où les académiques se sont jusqu’à présent contentés d’être faiblement présents dans les évaluations […] où les évaluateurs ont accepté d’être dépassés par des hauts fonctionnaires, des inspecteurs généraux ou des juges ».

39 Pour alimenter ce débat, nous pourrions relever que l’évaluation répond en fait à deux impératifs distincts et parfois contradictoires. D’une part, l’évaluation doit être scientifiquement fondée, ne serait-ce que pour la transparence qu’elle permet : les hypothèses doivent être explicites, les marges d’erreurs indiquées s’il y a lieu, le jugement doit être fondé sur ce qui est démontré, l’analyse doit être reproductible, la falsifiabilité est la clé de la rigueur.

40 D’autre part, l’évaluation doit être pertinente et chercher à répondre à la demande du décideur. Or il n’est pas toujours simple de concilier ces deux impératifs. Si le décideur demande la couleur d’un objet, on peut difficilement lui répondre que seule la longueur de l’objet peut à court terme être mesurée en chiffres et s’en tenir là.

41 Pour ce qui est de l’impératif de scientificité, l’organisation disciplinaire semble être la meilleure des solutions (ou du moins la moins mauvaise). Les techniques d’analyse sont de plus en plus sophistiquées. L’état de l’art en la matière est difficile à connaître dans une seule discipline. En outre, l’on voit mal comment une méta-discipline associant trois ou quatre sciences sociales pourrait organiser l’évaluation de la scientificité d’un texte réunissant autant de composantes disciplinaires : aucun éditeur de revue, par exemple, ne pourrait être à même de juger de cela [10].

42 La multidisciplinarité comporte donc un risque, qui est celui de conduire à terme à un affaiblissement des exigences méthodologiques, dans un processus de convergence vers le bas. Si ce n’est pas nécessairement le cas lorsque des scientifiques à la frontière de la recherche s’associent pour former un groupe pluridisciplinaire, le temps consacré à la gestion de cette multidisciplinarité risque cependant de laisser moins de temps pour faire progresser sa discipline ou simplement se tenir au courant des évolutions méthodologiques.

43 A contrario, la spécialisation au sein d’une discipline, voire, dans une discipline, au sein d’un sous-groupe de chercheurs maniant et raffinant les mêmes techniques d’analyse, peut conduire à un affaiblissement de la pensée. Ainsi, certains chercheurs tenants des méthodologies d’évaluation à partir d’échantillons aléatoires estiment que les résultats de macro-économétrie, notamment en matière monétaire, n’ont pas de fondements puisque l’identification n’est pas fondée sur un dispositif expérimental tel que celui des méthodes d’expériences contrôlées qui sont appliquées avec succès aux politiques de développement. On imagine pourtant mal une randomisation portant sur les politiques monétaires avec la participation volontaire des banques centrales. Le second impératif, répondre à une demande sociale (ici, comment mener une politique monétaire et quelles conséquences en attendre), ne peut pas être écarté par l’argument que seule la méthode expérimentale est valide. Les méthodes de variables instrumentales permettent de poser les hypothèses, réfutables donc, de l’identification. Inversement, la validité externe des expériences contrôlées échappe à toute réfutabilité, ce qui est en soi problématique.

44 Symétriquement, les chercheurs pratiquant les modèles structurels en économie expriment parfois un désintérêt frappant pour l’identification, quand bien même ils testent des scénarios de politique économique. La phrase d’Edward Prescott, « Progress, don’t regress » en est une illustration.

45 On peut souligner d’autres contextes dans lesquels les deux objectifs de l’évaluation (scientificité et capacité à répondre à la demande) peuvent s’opposer. Si un corps de contrôle d’une administration souhaite mener une évaluation d’un dispositif de politiques publiques, par exemple le dispositif Scellier de défiscalisation des investissements immobiliers ou le prêt à taux zéro, il va devoir réaliser cette évaluation dans une relative urgence, typiquement trois mois, dans un contexte où les données nécessaires à la réalisation de l’évaluation requièrent comme préalable la réunion du Conseil National de l’Information Statistique (CNIS), lui-même se réunissant épisodiquement. Par ailleurs, l’évaluation du dispositif s’avère généralement délicate, pour diverses raisons liées à sa mise en œuvre [11]. Faut-il dès lors laisser l’évaluation à des non-scientifiques ? Certains le pensent, pour une bonne raison : s’il faut fournir “la meilleure réponse possible sous contrainte de temps et de données”, l’académique ne peut pas fournir cette réponse, car sa raison d’être est de servir la meilleure évaluation possible sans ces contraintes. D’autres considèrent qu’il serait intéressant de consacrer une plus grande partie de son temps de recherche à expertiser les politiques publiques dans les domaines dans lesquels on mène des recherches, dans la mesure où cela pourrait contribuer à mieux comprendre les enjeux et le détail des dispositifs mis en place, et parfois de mieux connaître les données disponibles et d’en disposer [12] , [13].

Contradictions et complémentarités du quantitatif et du qualitatif

46 Il peut aussi arriver qu’une partie des enjeux d’un dispositif de politiques publiques porte sur des aspects pour lesquels il n’existe pas de données ou pour lesquels les enjeux sont difficilement quantifiables, immatériels ou tout simplement symboliques. Par exemple, une étude économétrique sur le redoublement peut arriver à la conclusion que celui-ci n’a pas d’effet causal sur le succès individuel après le redoublement (Gary-Bobo et Robin, 2014). Pour en conclure que le redoublement doit être supprimé ou réduit en France, il faudrait répondre à une autre question : quel serait l’effet de la suppression du redoublement sur les élèves, mais aussi sur la logique des rapports enseignants-élèves ou enseignants-parents ? Certains sociologues estiment notamment que la peur du redoublement constitue un moteur du comportement dans les classes. Il s’agirait donc d’un mécanisme de première importance sur l’apprentissage et les résultats scolaires, et ce mécanisme ne serait pas invariant à un changement de politique de redoublement. L’on peut en théorie imaginer un modèle économétrique structurel plus complexe et comportant notamment les effets d’équilibre général tels que celui décrit ci-dessus, ou une expérimentation permettant de tester ces différents effets. Dans tous les cas, le recours au dialogue interdisciplinaire peut se révéler efficace pour nuancer des conclusions et leur portée.

47 Cette dialectique du quantitatif (sans doute rigoureux car bien délimité mais parfois réducteur) et du qualitatif peut trouver de multiples applications. Par exemple, on pourrait imaginer un mode de raisonnement de type ex ante qui suggérerait que la loi interdisant le port du voile intégral en public est inutile, car elle ne concerne qu’un tout petit nombre de cas pour un coût important (direct ou en termes d’effort des services de police et de justice). La demande du décideur serait différente : ce serait de savoir quelle est la dynamique en termes de normes sociales qu’une telle loi va engendrer. Cette loi constituera-t-elle un signal visant à améliorer le sort des femmes dans des milieux islamistes ou, au contraire, mènera-t-elle des femmes à rester confinées dans des lieux privés ? On peut imaginer différents tests de ces hypothèses. L’alliance de méthodologies qualitatives ou quantitatives serait dès lors utile.

48 Enfin se pose la question de la contradiction possible entre les résultats de différentes méthodes. Dans une étude sur les discriminations sur le marché du logement, Bonnet et alii (2015) ont mené des entretiens téléphoniques auprès d’agences de location permettant de réaliser une étude économétrique d’impact sur l’influence du nom et du lieu de résidence sur les chances d’obtenir une visite d’un appartement en région parisienne. Ceci permet de révéler un résultat assez marquant : la consonance ethnique (française ou maghrébine) d’un nom n’a pas un impact très fort sur les chances de visite d’un logement disponible lorsqu’on contrôle l’effet de l’origine géographique. En revanche, le fait de résider dans un quartier connoté négativement (La Courneuve par opposition à Antony par exemple) a un impact très fort sur les chances d’obtenir une visite pour le postulant au logement. En voulant approfondir ce point par une technique différente, qualitative, fondée sur des enquêtes de terrain (30 entretiens en face-à-face d’une heure minimum auprès d’agents immobiliers), il en est ressorti de façon inattendue la conclusion inverse : les agents indiquent unanimement ou presque l’existence de fortes discriminations ethniques mais ne pensent pas que le lieu de résidence des postulants joue un rôle dans la sélection par les agences. Si Bonnet et alii (2015) tentent de proposer diverses explications, il n’en reste pas moins que l’alliance de différentes stratégies de recherche est difficile, quand bien même, dans le cas précis de cette étude, elle permet à nouveau d’éviter une erreur d’analyse ou, du moins, de nuancer une conclusion trop rapide, ce qui a bien entendu des implications pour les éventuelles recommandations de politiques publiques qui auraient pu être faites trop rapidement.

Conclusions partielles

49 En guise de conclusion partielle, et en forçant le trait, l’expert “renard” de Tetlock est sans doute, dans la représentation que l’on s’en fait, un producteur de savoirs plus difficilement falsifiables. Il est moins biaisé (donc plus juste en moyenne) mais en même temps plus imprécis, du moins quant à ses hypothèses de travail, et peut-être plus inductif.

50 En revanche, le chercheur “hérisson” produit du savoir sans doute plus facilement falsifiable, puisqu’inspiré de protocoles disciplinaires mieux établis, mais dont la pertinence peut être moins grande. Il se peut qu’il soit plus précis mais aussi plus biaisé, et qu’il ne cherche qu’au pied du lampadaire, pour reprendre l’allégorie bien connue de l’économiste qui ne recherche ses clés perdues que dans la portion éclairée de la rue, quand bien même celles-ci ont pu être perdues n’importe où.

51 Le croisement disciplinaire, s’il est bien mené, par des équipes dont les membres conservent une exigence disciplinaire forte, pourrait idéalement conserver la précision des analyses et la falsification, tout en permettant différents éclairages. Comment mieux évaluer ce respect de l’exigence disciplinaire que par la publication dans des revues à comité de lecture disciplinaires ? La question est ouverte.

52 Ce croisement permet-il de réduire les biais ? Du côté positif, il semble bien qu’il se traduise par des gains de pouvoir prédictif, ne serait-ce qu’en évitant les erreurs de type I (false positive) sur l’effet d’un phénomène social, c’est-à-dire en évitant de conclure à tort sur le bien-fondé d’une politique si d’autres méthodes disciplinaires rigoureuses contredisent ce constat. Cependant, il génère également des coûts de transaction. D’expérience, le travail interdisciplinaire est rendu compliqué par le fait que les chercheurs de différentes disciplines ont leur propre langage, leurs propres biais et leurs propres logiques de carrière. On pourrait imaginer de revenir sur ces obstacles en créant une nouvelle société scientifique pour gérer ces carrières, mais avec le risque de l’affaiblissement progressif de l’exigence méthodologique par éloignement de la frontière du savoir méthodologique disciplinaire.

53 Qui plus est, le contexte de l’évaluation en France est particulier. Il est celui d’un relatif manque de confiance réciproque entre trois acteurs distincts : les membres de cabinets ministériels, qui font l’interface avec le décideur politique ; les administrations, qui ont longtemps été dans une situation de monopole des données ; et les chercheurs, qui ont l’avantage d’une plus grande liberté de ton et même de définition des sujets et une formation par la recherche que n’ont pas toujours les administrations sectorielles ou les inspections, l’Insee étant à cet égard dans une position plus proche de celles des chercheurs que certaines administrations sectorielles [14] ,[15]. Un dialogue interdisciplinaire dans une évaluation de politiques publiques comportera donc au minimum quatre acteurs, puisqu’au moins deux universitaires interagissant de façon stratégique, ce qui augmente la complexité et la gestion de l’évaluation.

Les coûts de transaction des dialogues interdisciplinaires et une méthodologie pour les gérer

S’entendre sur les concepts

54 Partons d’une question qui a animé un dialogue interdisciplinaire fécond mais parfois complexe, et qui s’est posée lors de la co-rédaction d’un projet de laboratoire interdisciplinaire d’évaluation des politiques publiques (campagne 2011) dans le cadre du programme des Investissements d’Avenir (Laboratoires dits d’excellence ou Labex). Cette question est pourtant la question préalable. Elle tient en quelques mots : pourquoi faut-il des politiques publiques ?

55 Un économiste bien formé (les collègues d’autres disciplines diraient “bien formaté” !) répondrait spontanément qu’une politique publique est – ou devrait être – la réponse de la collectivité publique à des défaillances du marché. Par exemple, des externalités conduisent à une situation spontanée, en l’absence d’intervention publique, de surproduction (dans le cas de la pollution) ou de sous-investissement (dans le cas des externalités de capital humain). Un autre exemple est celui des biens publics, qui sont difficilement financés par les individus en raison des comportements de passager clandestin. Une troisième situation est celle des problèmes informationnels, qui conduisent à une inefficacité relative en raison des phénomènes d’aléa moral, ou à une inefficacité dramatique lorsque l’anti-sélection conduit à la disparition d’un marché. Enfin, les rendements d’échelle croissants se traduisent par une trop grande concentration de l’activité et des pertes sèches. Dans chaque cas, il est conceptuellement très simple pour l’économiste d’imaginer une politique optimale résolvant l’inefficacité, même si sa mise en œuvre est généralement une gageure.

56 La réponse des non-économistes est généralement très différente. Une politique publique, pour les politistes ou les sociologues, est en général une solution politique à un problème donné. Ce problème donné est donc identifié par l’existence même d’un conflit entre des intérêts divergents. En un sens, la politique publique est une façon de dénouer ce conflit et constitue un arbitrage rendu. Cet arbitrage ne conduit pas nécessairement à la résolution de l’inefficacité au sens où l’entendent les économistes. Il est rendu suite à un rapport de force politique, militaire ou dans le cadre plus feutré d’un jeu d’influence (lobbying).

57 Bien entendu, ces deux perspectives ne sont pas irréconciliables ni exclusives l’une de l’autre. Les économistes ont raison en un sens normatif, les politistes en un sens positif. Le mot normatif lui-même est sujet à de nombreuses incompréhensions entre les économistes et les non-économistes. En effet, on utilise ici le mot dans son acception habituelle en économie : il décrit ce qui devrait être une fois qu’on a précisé le critère normatif retenu. Ce critère normatif et son intérêt sont un autre sujet de débat sans fin entre disciplines. Les économistes pensent habituellement qu’il est possible de classer différentes politiques entre elles et qu’il existe une meilleure politique, qu’on qualifiera de politique optimale (par une tentation coupable de la pensée, ils considèrent en outre que le monde serait meilleur si les décideurs les écoutaient enfin).

58 D’autres disciplines adoptent, quant à elles, une vision descriptive de cette question : les décisions politiques échappent sans doute grandement à toute rationalité économique. L’émergence de l’économie politique au sein du corpus néoclassique, comme au sein du paradigme postmoderniste, suggère en effet que la décision collective peut s’analyser différemment de la réponse collective optimale à une défaillance du marché.

59 La figure 1 issue de Wasmer et Woll (2011) représente les différentes étapes d’un processus politique qui permet le consensus entre différentes disciplines. Au centre se trouve, non pas la défaillance de marché, mais le problème qui mérite intervention (qui inclut donc aussi la résolution d’un conflit entre intérêts divergents). Il en découle une solution optimale pour l’économiste, ou une préconisation idéale, notée X 0 . Il semble aussi utile de la distinguer au moins conceptuellement de ce que sera la recommandation de politique économique X 1 . Compte tenu de ce que le chercheur en sciences sociales sait du lien qui peut exister entre la nature de X 1 et les probabilités de succès de cette proposition X 1 à travers les étapes X 2 ... X 4 du processus démocratique (respectivement le programme politique d’un parti ou d’un candidat avant l’élection, la proposition de loi déposée par le parti élu puis le processus effectivement voté), il se peut que le chercheur s’autocensure. Plutôt que de prôner l’abandon d’une mesure symbolique forte mais aux effets négatifs avérés, il pourrait atténuer la proposition en imaginant une mesure améliorant la situation compte tenu de la probabilité que sa proposition soit adoptée plutôt que rejetée d’entrée [16]. En tous les cas, conceptuellement, X 0 et X 1 n’ont pas de raison d’être identiques.

60 L’étape suivante noté X 5 est celle de la mise en place de la mesure effective, après la parution des dispositions d’application (décrets, circulaire) et de la mise en place des budgets.

61 Ce type de figure semble a posteriori évident. Il constitue en fait une des étapes préalables de constitution d’un langage commun minimal. Il permet à tout le moins l’identification des sujets qui “hérissent” les uns et les autres. Une fois ceci réalisé, il est possible d’avancer dans un cadre d’analyse plus complet des politiques publiques [17].

Figure 1

les étapes du développement d’une politique publique

figure im4
Politique
finalement mise Cdeonlasépqouleitniqceuse
en place (X 5 ) mise en place
Problème identifié
Politique adoptée qui nécessite Solution politique
et votée (X 2... X 4) une intervention optimale (X0 )
Recommandation
de politique
publique (X 1 )

les étapes du développement d’une politique publique

Wasmer et Woll (2011).

S’entendre sur les avantages comparatifs et la complémentarité des approches

62 Pour simplifier sans doute exagérément l’analyse des politiques publiques, il est utile de distinguer trois moments : l’évaluation ex ante, l’évaluation ex post et, enfin, les processus de mise en œuvre et la contextualisation, avec la réserve que ces moments ne sont jamais totalement disjoints dans la pratique. Les techniques d’analyse coûts-bénéfices peuvent s’inspirer de ces trois moments, surtout du premier (ex ante). Elles constituent un complément indispensable à toutes les méthodes d’évaluation académiques de ces trois moments. Elles nécessitent un important travail supplémentaire et des hypothèses qu’il convient de rendre transparentes et, comme elles sont hélas peu valorisées par les revues ou par les pairs alors qu’elles sont socialement très utiles, elles sont insuffisamment centrales dans les évaluations académiques.

63 L’évaluation ex ante consiste en une prévision et une anticipation des effets, qui peut être chiffrée, fondée sur des modèles économétriques ou sur des modèles théoriques dits structurels. Elle peut également être moins quantitative, fondée sur une connaissance fine des processus susceptibles de jouer ou, enfin, fondée sur une analyse comparative internationale.

64 L’évaluation ex post consiste à faire le bilan d’une expérience passée, en s’appuyant sur une identification économétrique (expérience naturelle, variables instrumentales), permettant de construire un contrefactuel, exercice toujours délicat, ou sur des techniques plus qualitatives (audit, entretiens).

65 Les aspects de mise en œuvre, ou monitoring, apparaissent comme importants pour mieux comprendre ce qui pourrait faire échouer une prévision ex ante qui ne tiendrait pas compte de l’importance de mécanismes tels que l’appropriation ou non des réformes par les agents ou les usagers. Ainsi, on peut faire une étude épidémiologique de type ex ante sophistiquée sur l’impact d’une politique de vaccination sur le taux de diffusion d’une grippe saisonnière ou exceptionnelle (type H1N1). Si les médecins généralistes et les patients refusent massivement la campagne, cela change radicalement le processus de diffusion. Le modèle reste valide au sens de sa cohérence interne : le modélisateur indiquerait que, si les médecins avaient vacciné comme son paramétrage l’avait indiqué, ses résultats auraient été validés. Pour le décideur, le fait que le modèle n’ait pas pris en compte cette dimension est évidemment un aspect majeur.

66 Cet exemple suggère que le modèle ex ante est perfectible si les aspects liés à la mise en œuvre sont mieux compris. Dans la mesure où l’analyse ex ante quantifiée est fondée sur des travaux d’économistes, d’économètres ou d’épidémiologistes, et où l’analyse de mise en œuvre fait appel à des éléments de la sociologie des organisations et du droit, les aspects de collaboration interdisciplinaire peuvent se révéler féconds.

67 De la même façon, l’analyse quantitative ex post, qui permet d’apprécier les effets d’une politique donnée et d’en faire un bilan coût-bénéfice, peut bénéficier de l’apport des éléments de contextualisation et des divers mécanismes portant sur des variables qualitatives ou difficilement mesurables. Par exemple, lorsqu’on mesure le contenu en emploi des zones franches urbaines (Malgouyres et alii, 2012), le bilan quantitatif est généralement positif, mais avec un rapport coût-bénéfice faible. L’emploi créé et les implantations d’entreprises nouvelles sont parfois le résultat d’un effet de substitution, des déplacements d’activité en provenance d’autres zones proches. Les acteurs de terrain ne sont pas nécessairement toujours sensibilisés à ces considérations quantifiées et revendiquent quant à eux la redynamisation du quartier et les effets induits qui cassent la dynamique de ségrégation des quartiers. Les dimensions qualitatives ou quantitatives relevant d’autres aspects (criminalité, santé publique, éthique, juridique) sont dès lors susceptibles d’affiner le diagnostic à destination du décideur.

68 Un autre exemple où une analyse du contexte peut être très utile est celui de l’évaluation réalisée par Behaghel et alii (2009). Ceux-ci analysent le placement des demandeurs d’emploi à travers différents dispositifs institutionnels, issus de l’Unédic ou émanant du secteur privé. Ils trouvent que le programme Cap vers l’Entreprise, qui était issu des services de l’Agence nationale pour l’Emploi (ANPE), a eu de meilleurs résultats que les organismes privés de placement (OPP). Ce résultat bat en brèche des idées reçues, mais ne peut pas conclure sur les causes profondes de ces différences d’efficacité. Il suggère cependant qu’un effet de concurrence locale entre public et privé peut améliorer la motivation des acteurs publics. Si cela s’avérait être le cas, ce qu’une démarche qualitative aurait pu révéler dans une étude subséquente, cela aurait enrichi considérablement l’analyse des conséquences possibles d’une généralisation des mesures de mise en concurrence du secteur public par le secteur privé.

69 Un autre exemple intéressant de la combinaison de différentes approches est celui de l’expertise considérable autour du protocole du projet canadien d’autosuffisance expérimenté entre 1992 et 1995 au Canada (Self Sufficiency Project). Ce projet, consistant à verser un complément salarial conséquent aux personnes retrouvant un emploi à temps plein en ciblant les mères célibataires, a été testé sur des populations choisies aléatoirement dans deux provinces canadiennes, au Nouveau-Brunswick et en Colombie Britannique. L’expérience a fait l’objet de nombreuses évaluations ex post purement économétriques (Michalopoulos et alii, 2002). D’autres travaux ont tenté de modéliser la dynamique de formation des salaires d’une éventuelle généralisation du dispositif (Lise et alii, 2004). Enfin, des travaux de sociologie de la santé et de sciences de l’éducation ont cherché à appréhender le développement cognitif des enfants dans les foyers où un adulte isolé reprenait un travail en comparaison avec les foyers où un adulte isolé n’avait pas été sélectionné aléatoirement pour bénéficier de l’expérimentation.

70 Les liens entre l’analyse ex post et l’analyse ex ante sont déjà en soi une source d’enrichissement considérable. C’est le cœur de la démarche d’Attanasio et alii (2005), à partir d’expérimentations aléatoires et de modèles d’équilibre général permettant de capter les effets de bouclage d’un programme de développement au Mexique (Progresa).

71 Chemin et Wasmer (2008, 2012) utilisent une autre méthode d’évaluation ex post, l’expérience naturelle que constitue l’Alsace-Moselle, pour évaluer l’effet de l’implémentation du revenu minimum d’insertion (RMI), qui préexistait sous la forme de l’aide sociale depuis 1908 dans les trois départements du Haut-Rhin, du Bas-Rhin et de Moselle. Les effets désincitatifs se mesurent au moyen du taux de retour à l’emploi. Ceci permet de calibrer un modèle, notamment de calibrer le coût de l’effort de recherche des populations éligibles au RMI, qui est habituellement difficile à mesurer. Une fois ce calibrage effectué, il est possible d’utiliser le modèle pour faire des expériences de politiques économiques de type ex ante, par exemple sur le revenu de solidarité active (RSA). Le RSA réduisant le taux marginal implicite de taxation des revenus des travailleurs à faible revenu, le modèle prédit une diminution de moitié par le RSA des effets désincitatifs propres au RMI.

72 Cette triangulation des allers-retours entre les trois moments de l’analyse des politiques publiques et le caractère interdisciplinaire assumé de cette démarche sont au cœur du projet scientifique du Laboratoire Interdisciplinaire d’Évaluation des Politiques Publiques (LIEPP). Les détails se trouvent disponibles dans Wasmer et Woll (2011). Cette triangulation reprend les éléments des différentes étapes des politiques publiques (figure 2).

S’entendre sur une méthode de travail

73 Les différents moments de l’évaluation ne peuvent être croisés que si des disciplines distinctes (et organisées comme telles, cf. supra) peuvent utilement échanger entre elles. Cela implique de réfléchir notamment au jeu d’incitations qui peut animer les différents évaluateurs, notamment les chercheurs, dont la carrière repose essentiellement sur les publications, contrairement aux évaluateurs des administrations, pour lesquels les incitations sont plus diversifiées. À partir du moment où l’évaluation des chercheurs se fait au travers de la reconnaissance des pairs et où les publications dans des revues à comité de lecture jouent le rôle essentiel, le fait de travailler avec des chercheurs d’autres disciplines implique une réallocation du temps disponible qui pourrait décourager les chercheurs les plus investis dans leur champ disciplinaire. Il convient donc d’analyser le système d’incitations permettant de corriger cette tendance naturelle. On peut bien entendu espérer que les gains de la collaboration soient suffisamment forts pour que les chercheurs espèrent publier mieux dans leur discipline lorsque des collaborations interdisciplinaires ont permis des avancées scientifiques. Toutefois, comme tout investissement à haut rendement potentiel, celui-ci est sans doute plus risqué, d’une part, et sujet à des économies d’échelle, en raison de la structure des coûts fixes, d’autre part. En particulier, les coûts de transactions liés au manque d’un langage commun entre différentes disciplines est un obstacle a priori.

74 Une option incitative serait alors de rémunérer les chercheurs pour leur participation à des travaux réunissant des équipes différentes, sous forme de primes de direction de programmes de recherche. Une perspective plus dirigiste serait de recommander aux départements disciplinaires de tenir mieux compte des revues hors de la discipline lorsque celles-ci sont de qualité. Après tout, Gary Becker a connu l’énorme succès qu’on lui connaît après des échecs au sein de la discipline économique. On se souvient à cet égard de la façon négative dont son travail sur le capital humain a initialement été perçu au sein de l’American Economic Association dans les années 1960 (Becker, 1993). D’autre part, Gary Becker a publié dans les meilleures revues de démographie, d’éducation ou de criminologie, ce qui a assuré la diffusion de ses idées et de sa méthodologie. La question de savoir si la décision d’accorder la titularisation à un professeur assistant doit prendre en compte les publications dans des revues hors du champ, lorsqu’il existe un classement consensuel de ces revues et de leur qualité, se pose. Il s’agit d’une question ouverte. Il est facile de trouver des arguments en faveur et en défaveur d’une telle solution. Le risque de prendre en compte les publications hors discipline est de donner une incitation à délaisser son propre champ dès lors que les premiers échecs de publication surviennent ou, à tout le moins, de réduire l’exigence sur les strictes publications académiques disciplinaires. Il peut au contraire être intéressant de valoriser des publications hors du champ si le chercheur fait preuve de sa capacité, d’une part de publier dans les meilleures revues disciplinaires (disons les “top 5” ou “top 10”) et d’exporter son thème d’intérêt dans des revues d’excellence hors de son champ. S’il fallait prendre parti, on pourrait plaider en faveur d’une forte complémentarité entre des publications des deux disciplines (il est nécessaire de faire ses preuves dans son champ d’origine) mais aussi considérer qu’un certain degré de substituabilité est souhaitable. Au risque du dissensus, deux publications “top 10” dans deux champs disciplinaires pourraient bien valoir une publication “top 5” dans un champ, dans la mesure où ces deux publications de champs différents seraient à la fois une preuve d’excellence et d’ouverture d’esprit.

Figure 2

les liens entre les trois moments de l’évaluation

figure im5
Intuitions pour choisir les variables pertinentes pour une évaluation
Mise en œuvre Informations sur le succès ou l’échec de la polique Ex post
contextualisation évaluation
Politique
finalement mise
en place (X 5)
Intuitions et Inférence
mécanismes réciproque
à prendre en entre la
compte pour la Politique adoptée Problème identifié Solution politique modélisation
c o n c e p t i o n et votée (X 2 ... X 4) qui nécessite optimale (X 0) ex ante et
des modèles une intervention l’évaluation
d’évaluation ex post
ex ante. Test
d’hypothèses
sur les conflits
politiques
Recommandation
de politique
publique (X 1)

les liens entre les trois moments de l’évaluation

Wasmer et Woll (2011).

75 Dans tous les cas, le terreau fertile sur lequel un vrai travail interdisciplinaire de qualité peut se construire semble être la capacité à réunir une masse critique de chercheurs de très haut niveau et de mettre à leur disposition une structure leur permettant de travailler ensemble sans que les enjeux administratifs ou corporatistes ne prennent le dessus. L’idée est bien d’éviter une convergence vers le bas et de susciter des avancées scientifiques réelles.

76 Le travail n’a du reste pas besoin d’être réalisé en commun, à plusieurs mains : la confrontation systématique entre disciplines, idéalement au début, au milieu et à la fin d’une étude donnée, peut dans un premier temps suffire à significativement améliorer la qualité et susciter de nouvelles questions, voire des collaborations effectives.

77 Une question pratique qui se pose est également de savoir si les économistes doivent favoriser les collaborations avec des non-économistes qui seraient plutôt d’inspiration quantitative, ou au contraire avec ceux qui sont inscrits dans des démarches qualitatives. Les sociologues et politistes quantitatifs ont un mérite, celui de disposer des éléments communs du métalangage de la statistique et, de plus en plus, du langage de l’identification causale. Le dialogue avec les qualitativistes est plus complexe en raison de l’absence de langage commun. Néanmoins, il pourrait se révéler très fécond, pour la simple raison qu’il n’a jamais été tenté et permettrait précisément de documenter ce que les économistes oublient faute de données [18].

78 Il reste enfin une problématique à aborder, qui explique ce qui rend si difficile le dialogue entre les disciplines. En réalité, il existe un fossé paradigmatique entre : d’une part, ceux qui estiment rechercher une vérité cachée que les chiffres permettent de révéler (scientifiques prônant l’“evidence-based policy”) ; d’autre part, ceux qui estiment, à des degrés divers, qu’une telle recherche est rarement neutre, soit parce que les chiffres eux-mêmes sont des constructions sociales, soit parce que l’évaluation elle-même est un processus politique, parfois, si ce n’est toujours, instrumentalisé. On ne tranchera pas ce débat. On se contentera de dire qu’une donnée, même “construite socialement”, semble toujours plus objective qu’une appréciation non réfutable et que la démarche qualitative devrait conduire à éliminer le plus grand nombre des assertions non réfutables.

Conclusion

79 Cet article, après avoir résumé le principal enseignement d’un ouvrage de P.E. Tetlock sur la démarche cognitive des experts et souligné le coût relatif de la spécialisation en termes de succès prédictif qu’il suggère, a ensuite passé en revue les avantages et les inconvénients de la pluralité des approches. Les contradictions entre les divers objectifs des praticiens de l’évaluation (scientificité d’une part, capacité à répondre à des questions posées par le décideur d’autre part) et entre diverses méthodologies et leurs différences de langage, engendrent de nombreux coûts de transaction. En particulier, les coûts de transaction liés à des questions de langage, d’une part, de gestion des carrières, d’autre part, nécessitent une réflexion sur la mise en œuvre, si elle est souhaitable, de la pluridisciplinarité.

80 La question initialement posée dans cet essai était double : d’une part, quelle est la nécessité d’éclairages multiples dans des évaluations de politiques publiques ; d’autre part, faut-il aller jusqu’à effacer les frontières disciplinaires dans la pratique de la recherche ? La réponse apportée ici à la première question est que toute évaluation avec un regard multiple sera de bien meilleure précision si les points de vue se confortent et évitera d’être biaisée, donc fausse, si les points de vue s’opposent. Ceci permet donc de mieux peser, d’un point de vue scientifique, les conclusions atteintes, comme il a été montré dans l’un des exemples cités dans ce texte, à propos de la discrimination sur le logement. La réponse à la seconde question semble sans ambiguïté négative, tant le sacrifice de la gestion disciplinaire de l’excellence est important au regard des éventuels avantages d’une pratique scientifique multidisciplinaire : l’évaluation des chercheurs par leurs pairs n’a de sens que s’ils sont sur des champs bien délimités.

81 Pour pouvoir répondre qu’une seule discipline, la science économique, pourrait négliger les apports d’autres disciplines, il faudrait que celle-ci atteigne déjà l’objectif très ambitieux qui serait d’arriver à incorporer dans le paramétrage de modèles d’évaluation ex ante les multiples éléments suivants : les enseignements des évaluations ex post (expériences naturelles ou contrôlées), d’une part ; les enseignements plus qualitatifs liés à la mise en œuvre, d’autre part ; la dimension du droit et la dimension politique de l’appropriation des réformes, sur lesquels les points de vue juridiques, sociologiques et de science politique sont les plus précis, enfin. De fait, peut-être y-a-t-il pour les économistes une certaine urgence à prendre mieux en compte des dimensions difficilement mesurables mais qui peuvent affecter profondément la justesse des recommandations.

Bibliographie

Bibliographie

  • Attanasio O., Meghir C. et Santiago A. (2005). “Education Choices in Mexico : Using a Structural Model and a Randomized Experiment to Evaluate Progresa”, Review of Economic Studies, vol. 79, n° 1, pp. 37-66.
  • Baslé M. (2008). Suivi et évaluation des politiques publiques et des programmes, Économie, conseil et gestion publique, Economica, 190 pages.
  • Behaghel L., Crépon B. et Gurgand M. (2009). “Évaluation d’impact de l’accompagnement des demandeurs d’emploi par les opérateurs privés de placement et le programme Cap vers l’entreprise”, rapport final, Crest, 68 pages.
  • Becker G. (1993). “Nobel Lecture : The Economic Way of Looking at Behavior”, The Journal of Political Economy, vol. 101, n° 3, pp. 385-409.
  • Bonnet F., Lalé É., Safi M. et Wasmer É. (2015). “Better Residential than Ethnic Discrimination ! Reconciling Audit’s Findings and Interviews’ Findings in the Parisian Housing Market”, LIEPP Working Paper n° 36, février, 41 pages.
  • Chemin M. et Wasmer É. (2008). “Regional Difference-in-Difference in France Using the German Annexation of Alsace-Moselle in 1870-1918”, in Frankel et Pissarides (éds), NBER International Seminar on Macroeconomics 2008, National Bureau of Economic Research, Inc., pp. 285-305.
  • Chemin M. et Wasmer É. (2012). “Ex-Ante and Ex-Post Evaluation of the 1989 French Welfare Reform Using a Natural Experiment”, LIEPP Working Paper nº 3, octobre, 46 pages.
  • Ferracci M. et Wasmer É. (2012). État moderne, État efficace : évaluer les dépenses publiques pour sauvegarder le modèle français, Paris, Odile Jacob, 212 pages.
  • Gary-Bobo R. et Robin J.-M. (2014). “La question des redoublements : analyse économique et problèmes statistiques”, Revue Économique, vol. 65, 2014/1, pp. 5-45.
  • Gregoir S. (2014). “L’évaluation des politiques publiques : qui et comment ?”, Économie et Prévision, n° 204-205, pp. 221-224, ce numéro.
  • Jacobs S. (2008). “Cross-Disciplinarization : ANew Talisman for Evaluation ?”, American Journal of Evaluation, vol. 29, n° 2, pp. 175-194.
  • Kahneman D. et Tversky A. (1979). “Prospect Theory : An Analysis of Decision under Risk”, Econometrica, vol. 47, n° 2, pp. 263-291.
  • Langot F. et Petit P. (2011). “Introduction du numéro spécial L’évaluation des politiques publiques”, Revue Française d’Économie, vol. XXVI, n° 1, juillet, pp. 3-9.
  • Langot F. et Petit P. (2012). “Introduction du numéro spécial L’évaluation des politiques publiques”, Revue Française d’Économie, vol. XXVII, n° 1, juillet, pp. 3-8.
  • L’Horty Y. et Petit P. (2011). “Évaluation aléatoire et expérimentations sociales”, Revue Française d’Économie, vol. XXVI, n° 1, pp.13-48.
  • Lascoumes P. et Setbon M. (1996). L’évaluation pluraliste des politiques publiques : enjeux, pratiques, produits, GAPP-CNRS, 182 pages.
  • Lise J., Seitz S.N. et Smith J. (2004). “Equilibrium Policy Experiments and the Evaluation of Social Programs”, NBER Working Paper n° 10283, 47 pages.
  • Malgouyres C., Mayer T., Mayneris F. et Py L. (2012). “Évaluation des effets des politiques ciblées sur les territoires : le cas des Zones Franches Urbaines”, Rapport remis à la Dares, avril, 136 pages
    (http://perso.uclouvain.be/florian.mayneris/rapport_zfu.pdf).
  • Michalopoulos C., Tattrie D., Miller C., Robins P., Morris P., Gyarmati D., Redcross C., Foley K. et Ford R. (2002). “Making Work Pay, Final Report on the Self-Sufficiency Project for Long-term Welfare Recipients”, rapport, Social Research and Demonstration Corporation, juillet, 254 pages.
  • Musselin C. (2013). Discussion du document d’É. Wasmer intitulé : “Évaluation des politiques publiques : faut-il de l’interdisciplinarité ?”, LIEPP Methodological Discussion Paper n° 2, septembre, pp. 19-22.
  • Piketty T. (2001). Les Hauts revenus en France au XXème siècle : inégalités et redistribution, 1901-1998, Paris, B. Grasset, 807 pages.
  • Scriven M. (2010).Evaluating Evaluations : A Meta-Evaluation Checklist”, mimeo, Claremont Graduate University, 7 pages,
  • (http://michaelscriven.info/images/EVALUATING_EVALUATIONS_8.16.11.pdf).
  • Tetlock P.E. (2005). Expert Political Judgment. How Good Is It ? How Can We Know ?, Princeton University Press, 321 pages.
  • Wasmer É. et Woll C. (2011). “Scientific Project, Sciences Po|LIEPP laboratoire interdisciplinaire d’évaluation des politiques publiques, or in English, Interdisciplinary Research Center for the Evaluation of Public Policies”, MPRA Paper 31434, University Library of Munich, Germany, 42 pages.

Mots-clés éditeurs : analyses contextuelles des politiques et politiques fondées sur la preuve, évaluation des politiques publiques, politiques optimales, interdisciplinarité

Mise en ligne 14/01/2016

https://doi.org/10.3917/ecop.204.0193

Notes

  • [*]
    Sciences Po, Département d’Économie et Laboratoire Interdisciplinaire d’Évaluation des Politiques Publiques (LIEPP). E-mail : etienne.wasmer@sciencespo.fr
  • [1]
    Les disciplines créent des frontières (Jacobs, 2008) souvent fondées sur les méthodes ou les paradigmes. Dans le cas d’approches croisant des regards disciplinaires multiples, l’on peut proposer, comme Christine Musselin, les distinctions suivantes : plurisdisciplinarité (juxtaposition de connaissances, d’analyses, de méthodes entre plusieurs disciplines), interdisciplinarité (échange de connaissances, d’analyses, de méthodes entre plusieurs disciplines) et transdisciplinarité (effacement des frontières entre les disciplines). Jacobs (2008) définit la multidisciplinarité comme des recherches opérant en parallèle mais sur des sujets similaires, comme la définition de la pluridisciplinarité ci-dessus, et insiste, dans le cas de l’interdisciplinarité, sur les collaborations à partir de perspectives différentes.
  • [2]
    La diffusion de ces méthodes en France s’est accélérée récemment, comme en témoignent par exemple les deux numéros spéciaux de 2011 et 2012 de la Revue Française d’Économie sur l’évaluation des politiques publiques. Il est intéressant de constater qu’aucun des articles de ces deux numéros ne fait appel à une autre discipline ni n’en évoque. Les deux introductions de ces numéros (Langot et Petit, 2011 et 2012) et l’article de synthèse de L’Horty et Petit (2011) se consacrent surtout au débat “randomisation” ou “estimations structurelles” et aux questions éthiques des méthodes d’assignation aléatoires. Ils n’abordent pas la question de l’interdisciplinarité, quand bien même plusieurs des auteurs de ces deux numéros la pratiquent parfois sur des sujets ponctuels.
  • [3]
    « It is a major advance in our understanding of expert judgment in the vitally important and almost impossible task of possible and strategic forecasting » (source : quatrième page de couverture de Tetlock, 2005).
  • [4]
    Il existe des hérissons sans piquants en Asie (gymnures).
  • [5]
    « Thinkers who know one big thing, aggressively extend the explanatory reach of that one big thing into new domains, display bristly impatience with those “who do not get it” and express considerable confidence that they are already pretty proficient forecasters, at least in the long run »- citation extraite de Tetlock (2005).
  • [6]
    « Thinkers who know many small things, are sceptical of grand schemes, see explanation and prediction not as deductive exercises but rather as exercises in flexible “ad hocery” that require stitching together diverse sources of information, and are rather diffident about their own forecasting prowess and rather dubious that the cloudlike subject of politics can be the object of a clocklike science »- citation extraite de Tetlock (2005).
  • [8]
    Un économiste en faisant la lecture détaillée ferait certainement un intéressant “rapport d’étonnement”. Ainsi, le texte est souvent très imagé (comme en témoignent les classifications énoncées ci-dessus), ce qui peut déconcerter. Il est aussi parfois très simplificateur (le message principal en est d’autant mieux mis en valeur) et il est presque impossible de comprendre ce qui est précisément fait sans lire en détail les annexes méthodologiques, qui représentent 73 pages sur les 238 du texte principal, soit 30 % du texte.
  • [9]
    L’article 1er du décret 90-82 du 22 janvier 1990 relatif à l’évaluation des politiques publiques indique ainsi que « L’évaluation d’une politique publique au sens du présent décret a pour objet de rechercher si les moyens juridiques, administratifs ou financiers mis en œuvre permettent de produire les effets attendus de cette politique et d’atteindre les objectifs qui lui sont assignés ».
  • [10]
    On pourrait cependant imaginer qu’il s’entoure de coéditeurs à la frontière des différentes disciplines. Cependant, comme ceux-ci prennent en général leur décision sur la base de deux, voire trois, avis de rapporteurs différents dans leur discipline, les coûts de transaction risquent d’être prohibitifs, sauf à relâcher les exigences.
  • [11]
    Ainsi, comme cela a été développé notamment dans Ferracci et Wasmer (2012), de nombreux dispositifs publics sont nationaux, ce qui ne permet pas une évaluation par différence régionale. D’autres sont expérimentés localement mais pas de façon aléatoire, ou encore sont fluctuants dans le temps, ce qui rend l’évaluation difficile faute de recul. Enfin, il se peut que les politiques soient annoncées longtemps avant d’être mises en œuvre. Il est alors difficile de dissocier l’effet d’anticipation de l’effet d’implémentation, qui, de surcroît, est diffus dans le temps.
  • [12]
    L’argument selon lequel il est plus difficile d’évaluer la valorisation que la science elle-même est parfois avancé. À la réflexion, il ne peut que paraître surprenant. Il est bien plus difficile d’évaluer un article soumis à Econometrica que de juger de la qualité d’un rapport scientifique. C’est une question d’incitations et on peut du reste imaginer d’organiser une évaluation de l’expertise et de la valorisation dans les carrières.
  • [13]
    NDLR : sur la place des chercheurs dans l’évaluation des politiques publiques, voir aussi Gregoir (2014), dans ce numéro.
  • [14]
    Un exemple de ceci est la clause d’accord préalable avant diffusion des résultats que certaines administrations font figurer dans les conventions avec les équipes de recherche. La charte dite des trois Labex (pour laboratoires d’excellence) adoptée en mars 2012 par le Laboratoire Interdisciplinaire d’Évaluation des Politiques Publiques (LIEPP) à Sciences-Po, l’Institut des Politiques Publiques (IPP) à l’École d’Économie de Paris et l’Institut D’Économie Publique (IDEP) à Aix-Marseille (disponible sur le site de ces institutions) interdit formellement de telles clauses. On trouve une analyse poussée de ces interactions entre les trois mondes dans Lascoumes et Setbon (1996). Leur thèse était que l’administration et les inspections ont toujours tenté d’être les évaluateurs des politiques publiques. Depuis, l’on peut observer des évolutions très positives d’un rapprochement marqué entre monde de la recherche et monde de l’administration dans de nombreux secteurs, certaines inspections jouant un rôle pionnier.
  • [15]
    Par exemple, lorsque Thomas Piketty (Piketty, 2001) a analysé la dynamique des inégalités sur le long terme dans les milliles supérieurs de la distribution des revenus, son apport premier n’était pas dans les techniques utilisées, disponibles et facilement mobilisables au sein des administrations. Il résidait dans l’intuition que ces données révèleraient des faits importants et des enseignements précieux sur l’interaction entre la fiscalité et les inégalités, et que cet agenda devait être central. Les administrateurs peuvent ne pas pouvoir se lancer dans des travaux de cette ampleur s’il n’y a pas les moyens ou la volonté politique de le faire.
  • [16]
    Certains reconnaîtront ici l’objection de Charles Péguy « Le kantisme a les mains pures, mais il n’a pas de mains. » (Pensées, octobre 1910) à l’impératif catégorique de Kant.
  • [17]
    Pour illustrer les difficultés des sciences sociales à communiquer, on pourrait se souvenir de ce que l’étape de constitution d’un langage en économie a été une raison majeure de l’établissement d’un savoir codifié commun. Dans le cadre de la mission Fitoussi sur l’enseignement de l’économie de 2001, L’économiste Robert Solow rapportait que, lorsqu’il débutait sa carrière, les économistes de différents pays utilisaient des termes identiques pour des concepts différents et que les premières étapes de discussion étaient de s’assurer que les concepts utilisés étaient identiques, ce que la synthèse néoclassique a permis de réaliser. Une telle étape de constitution d’un langage commun entre différentes sciences sociales reste à franchir.
  • [18]
    De même que la psycho-histoire rêvée par l’auteur de science fiction Isaac Asimov permettait la prévision de l’avenir en alliant mathématiques, sciences sociales et histoire, la prise en compte des facteurs politiques, juridiques et sociologiques de la mise en œuvre d’une politique publique pourrait constituer le Graal du modélisateur structurel dans son approche ex ante !
bb.footer.alt.logo.cairn

Cairn.info, plateforme de référence pour les publications scientifiques francophones, vise à favoriser la découverte d’une recherche de qualité tout en cultivant l’indépendance et la diversité des acteurs de l’écosystème du savoir.

Avec le soutien de

Retrouvez Cairn.info sur

18.97.14.82

Accès institutions

Rechercher

Toutes les institutions