Couverture de ADMED_145

Article de revue

PISA, une belle enquête : lire attentivement la notice

Pages 25 à 30

Notes

  • [1]
    En France, par exemple, certaines critiques récurrentes subsistent dans le monde de l’éducation et portent sur le format des épreuves, qui seraient composées de QCM (questions à choix multiples), ce qui désavantagerait nos élèves. Or, il faut rappeler que les épreuves comportent environ pour moitié des QCM et pour moitié des questions ouvertes, et c’est précisément sur les QCM que les élèves français sont le plus performants, car ils s’abstiennent plus souvent de répondre aux questions appelant une réponse rédigée et construite.
  • [2]
    Le prochain cycle de PIRLS (Progress in International Reading Literacy Study) sur la compréhension de l’écrit en CM1 aura lieu en 2016. Celui de TIMSS (Trends in International Mathematics and Science Study) sur les mathématiques et les sciences en CM1, 4e et Terminale S aura lieu en 2015 (uniquement CM1 et TS en France).
  • [3]
    Par exemple, l’évaluation TIMSS a été mise en œuvre dans les années 1990 par les organismes qui supervisent PISA aujourd’hui.
  • [4]
    Rappelons que PISA a fait le choix de traduire un même support dans toutes les langues (44 langues, 87 versions), alors qu’un intéressant projet européen (C-BAR) a plutôt choisi de comparer les performances des élèves à partir de textes « indigènes », non traduits. Des procédures d’ancrage (via des supports traduits ou via des élèves bilingues) avaient également été introduites pour assurer la comparabilité.
  • [5]
    Notons que l’analyse détaillée des résultats par items (questions) est en général peu développée par l’OCDE, alors que cette entrée apporte des éclairages très intéressants : cf. par exemple, Roditi et Salles (à paraître) sur la culture mathématique.

L’évaluation PISA est devenue incontournable dans le débat sur l’éducation et semble exercer une influence sur les décisions politiques. La connaissance précise de ce qu’est PISA doit donc être à la mesure de ces enjeux. Si la construction de l’enquête force l’admiration du statisticien, il est néanmoins indispensable d’en rappeler les composantes, afin de tirer une interprétation valide des résultats et d’éviter leur utilisation incorrecte ou dévoyée. Que peut-on réellement dire à partir de PISA ? Et surtout ne pas dire ? Quelles en sont les limites, les points de vigilance, les futurs défis ?

Naissance d’une star

1Depuis quinze ans, l’évaluation PISA a incontestablement permis d’alimenter et de vivifier le débat public sur l’École. Les résultats de PISA sont immédiatement convoqués dès qu’il s’agit d’éducation et il est rare qu’un discours sur les questions éducatives ne soit pas introduit par une référence à PISA – quelle que soit la teneur des propos. Si l’enquête peut encore faire l’objet de critiques plus ou moins fondées [1], l’opération est un succès et apparaît comme une entreprise novatrice. Pourtant, l’évaluation PISA n’est pas la première du genre : rappelons que l’origine des enquêtes internationales sur les compétences des élèves remonte aux années 1960. La nouveauté, c’est que PISA a sorti les évaluations internationales du seul giron de la recherche en éducation ; elles se sont institutionnalisées, avec l’entrée en jeu de l’OCDE qui a réussi à imposer son enquête dans le paysage médiatique et politique, en phase avec les idées d’indicateurs de performance, de benchmarking, d’accountability, de public management. En réalité, PISA s’inscrit dans le sillage de la longue histoire des évaluations internationales, conduites en majorité par l’IEA (International Association for the Evaluation of Educational Achievement, qui mène notamment aujourd’hui les enquêtes PIRLS et TIMSS [2]). L’héritage de ces évaluations, à travers l’expérience opérationnelle, les acquis méthodologiques, et même les opérateurs [3], a contribué à faire de PISA une enquête de grande qualité.

Une construction avant tout

2Cependant, PISA – comme toute évaluation de compétences – est une construction, dont il faut rappeler les fondements si l’on souhaite saisir toute la portée des résultats. Ainsi, deux paramètres essentiels distinguent PISA des autres enquêtes d’évaluation et participent de son succès : la population évaluée et le contenu de l’évaluation. PISA interroge des élèves de 15 ans, quel que soit le niveau auquel ils sont scolarisés, selon une logique économique s’intéressant aux résultats des systèmes éducatifs, à un âge marquant la fin de scolarité obligatoire dans la majorité des pays de l’OCDE. Ce choix d’une génération plutôt que d’un niveau scolaire a des avantages et des inconvénients au plan de l’analyse. L’avantage principal est que la comparabilité internationale est facilitée, la base étant une année de naissance et non un niveau scolaire (grade) qui peut renvoyer à des acceptions différentes selon les systèmes éducatifs. Un des inconvénients est que certaines analyses s’en trouvent fragilisées, comme par exemple les différences entre établissements dans le cas de la France. En effet, à 15 ans, les élèves français sont au lycée ou au collège, selon qu’ils ont redoublé ou non dans leur cursus. Dès lors, comparer des collèges et des lycées sur la base des performances des collégiens en retard et des lycéens à l’heure conduit à des analyses absurdes des effets liés aux contextes scolaires.

3S’agissant du contenu, PISA interroge la notion de literacy qui a malencontreusement été traduite en français par « culture » dans le cas des mathématiques et des sciences. Pour résumer, l’évaluation « va au-delà des acquis purement scolaires et se concentre sur la mise en œuvre des savoirs et savoir-faire dans des tâches et des défis quotidiens, que ce soit en famille ou dans le monde du travail » (OCDE, 2013). Cet objectif est parfaitement cohérent avec le choix d’une génération, dans la mesure où il se détache de contenus d’enseignement précis. L’enquête PISA s’adresse en quelque sorte aux « honnêtes jeunes gens du XXIe siècle ». Elle évalue une dimension très générale, dominée par l’écrit : il est d’ailleurs frappant d’observer le niveau de corrélation très élevé entre compréhension de l’écrit, culture mathématique et culture scientifique. Clairement, cette dimension n’est pas dénuée d’intérêt, surtout dans le contexte du socle commun de connaissances et de compétences.

La tentation du couteau suisse

4Cependant, chacun sait le glissement possible qui consiste à transformer l’objet de la mesure en objectif d’enseignement. Le but de notre système consiste-t-il uniquement à améliorer notre classement sur l’échelle de PISA ? Cette conception serait à l’évidence réductrice puisqu’en se centrant sur cette notion de literacy, l’évaluation écarte de facto d’autres aspects. Un exemple : en appréhendant les mathématiques comme un outil et pas comme un objet, PISA, par construction, évalue mal les élèves très à l’aise avec les concepts mathématiques, capables d’abstraction et de formalisation, des compétences qui sont en revanche un des objets de l’enquête TIMSS. Il est important d’avoir à l’esprit cette orientation lors de l’interprétation des résultats, notamment lorsque sont mentionnées les « performances en mathématiques » à PISA. Mais sur le fond, il apparaît tout à fait raisonnable qu’une évaluation ne puisse rendre compte de plusieurs objets. Il faut donc souligner l’importance de pouvoir disposer d’un ensemble d’outils d’évaluation, adaptés aux différents objectifs qui leur sont assignés. Par exemple, les évaluations CEDRE (Cycle des Évaluations Disciplinaires Réalisées sur Échantillons) sont axées sur les attendus des programmes scolaires français à des moments clés du système (CM2, 3e). À ce titre, la complémentarité des deux dispositifs PISA et CEDRE est précieuse, PISA n’ayant certainement pas vocation à devenir l’alpha et l’oméga des résultats de l’école.

5Or, nous assistons aujourd’hui à une déclinaison de la gamme PISA, comme en témoignent deux programmes en cours : PISA for Schools, pour le pilotage des établissements, et PISA for Development à destination des pays en développement. Il faut sans doute se réjouir de voir ainsi se diffuser la culture de l’évaluation, mais il faut aussi s’interroger sur la pertinence d’employer le même outil pour des objectifs et dans des contextes qui sont très différents de ceux qui l’ont fait naître. De notre point de vue, la diffusion d’un instrument d’évaluation unique au service de problématiques différentes conduit à un réel risque de confusion.

Une mécanique de précision

6Sur le plan méthodologique, PISA est sans conteste un modèle du genre. Des procédures d’enquête aux traitements statistiques, la chaîne complexe d’élaboration de l’évaluation est définie avec une grande rigueur et fait l’objet de contrôles serrés. Des dizaines de standards ont été définis et doivent être suivis par les pays participants : tirage des échantillons, procédures de traduction, procédures de correction des réponses, validation des items, etc. Tous ces aspects sont étudiés et font de PISA une enquête de très grande qualité, qui a d’ailleurs une influence certaine, en matière de transfert technologique, sur les programmes d’évaluation nationale, tels que CEDRE. Si les méthodes statistiques et psychométriques employées peuvent faire débat (Vrignaud, 2006), il faut rendre hommage à l’enquête pour sa transparence : un rapport technique très détaillé ainsi que l’ensemble des données recueillies sont disponibles en ligne gratuitement.

7Malgré ces efforts, des problématiques inhérentes aux comparaisons internationales rendent irréductibles certaines difficultés. En particulier, les aspects linguistiques sont déterminants. Si rigoureuses soient-elles, les procédures de traduction ne permettent pas de gommer les spécificités linguistiques qui peuvent rendre un item plus ou moins difficile, lors de sa traduction [4]. Des analyses montrent que la hiérarchie de difficulté des questions posées est à peu près conservée pour des pays partageant la même langue, mais qu’elle peut être bouleversée entre deux pays n’ayant pas la même langue. Ce constat est encore plus marqué avec l’extension de PISA hors de la zone OCDE, à des pays dont la langue n’est pas indo-européenne, et pour lesquels il est encore plus difficile de garantir l’équivalence de la difficulté des épreuves lors de la traduction. Un autre élément de fragilité est lié au statut de ce type d’évaluation, réalisée sur échantillon, pour des objectifs macroscopiques : l’évaluation est sans enjeu pour les élèves. Dès lors, quel degré de motivation les élèves ont-ils ? Nous travaillons sur ce thème en France – les programmes nationaux d’évaluation sont également concernés par cette question – et nous avons pu montrer que les effets ne sont pas négligeables, dès lors que l’on présente l’évaluation comme étant notée ou non. Pour PISA, la question se pose du point de vue de la comparabilité internationale, car les procédures visant à favoriser l’implication des élèves et des écoles peuvent être très différentes d’un pays à l’autre – de la mobilisation « patriotique » aux incitations financières.

En France : des résultats convergents avec les enquêtes nationales, malheureusement

8Concernant la France, PISA a révélé des points faibles très préoccupants pour le pays chantre de l’école républicaine ; s’il ne fallait retenir que deux résultats majeurs, on retiendrait l’augmentation des élèves en difficulté face à l’écrit et l’accroissement des inégalités sociales. Ainsi, de 2000 à 2009, le pourcentage d’élèves ayant des difficultés en compréhension de l’écrit est passé d’environ 15 % à 20 %, en cohérence avec les résultats observés dans d’autres enquêtes nationales. En culture mathématique, de 2003 à 2012, le poids de l’origine socio-économique sur la performance scolaire a augmenté de 33 %, ce qui place notre pays en tête des pays de l’OCDE en matière d’inégalités sociales de compétence. Notons toutefois un résultat encourageant qui concerne la résolution de problèmes. Réalisée sur support numérique, l’évaluation de la résolution de problèmes porte sur la capacité des élèves à se représenter un problème, à formuler des hypothèses, à planifier et exécuter une stratégie, à évaluer un résultat, etc. Sur cette épreuve, les élèves français témoignent d’une meilleure réussite et on observe moins d’inégalités que pour les autres compétences évaluées par PISA (Salles, 2014).

Que peut-on réellement tirer de PISA ?

9D’une certaine manière, PISA porte une contradiction ontologique. Alors que la méthodologie définie est tendue vers l’établissement d’un palmarès des pays selon une dimension sur laquelle chacun d’entre eux serait positionné de la manière la plus rigoureuse et équitable possible, il ressort à l’analyse que les classements de pays n’ont finalement que très peu d’intérêt (ce que reconnaît d’ailleurs l’OCDE lors de la communication des résultats). L’une des raisons est d’ordre technique. Les scores des pays sont calculés à partir d’un échantillon d’élèves. Dès lors, ces chiffres sont soumis à un aléa qu’il est possible de quantifier en calculant l’erreur d’échantillonnage associée, ce que ne manque pas de réaliser et d’expliquer le consortium chargé de l’enquête. Ainsi, la différence de scores observée entre deux pays peut ne pas être significative au regard des erreurs d’échantillonnage. Malgré ces précautions, l’attention médiatique reste principalement focalisée sur le rang dans les classements internationaux, alors que la France par exemple, pourrait être classée entre la 13e et la 23e place sur les 34 pays de l’OCDE en culture mathématique en 2012.

10En réalité, l’intérêt de PISA réside surtout dans l’étude des écarts, des évolutions temporelles, des relations avec d’autres caractéristiques, des points de différenciation, des questions elles-mêmes [5], etc. Mais au-delà de ces éléments descriptifs tout à fait éclairants, les résultats de l’enquête posent la question importante de l’identification de relations causales. Or, le passage de la corrélation à la causalité n’est pas sans risque. Prenons l’exemple de la question de l’autonomie des établissements. Constater que « dans les pays où les établissements scolaires ont une plus grande autonomie par rapport à ce qui est enseigné et à la manière dont les élèves sont évalués, les élèves tendent à avoir de meilleures performances » (OCDE, 2011) autorise-t-il à conclure à un lien de cause à effet ? Outre le fait que la dimension « autonomie » est captée à partir des déclarations des chefs d’établissements, son lien avec la performance – au niveau des pays – reflète de nombreux facteurs confondus, liés à l’organisation des systèmes, aux pratiques pédagogiques, etc., qui participent à l’explication de meilleures performances. C’est la même problématique pour de nombreuses questions, qu’il s’agisse des devoirs à la maison ou de l’allocation des moyens, où l’explication causale peut se révéler fausse.

Les défis de PISA

11C’est précisément l’un des défis majeurs de PISA : comment passer du constat à l’analyse causale et aux recommandations. Cet aspect est malheureusement trop peu exploré, que ce soit via les analyses statistiques ou via l’architecture du test. L’introduction de suivis longitudinaux s’avérerait sans doute très profitable. De ce point de vue, le rythme de trois ans inscrit sans doute PISA dans un temps trop court, qui n’est pas celui de la recherche. Un autre défi très important est celui de la transition d’un test passé avec papier et crayon à un test entièrement réalisé sous format numérique. Il s’agit d’une innovation majeure qui pose de nombreuses difficultés d’ordre technique, pour le mettre en place dans les établissements scolaires. La question corollaire est celle de la comparabilité dans le temps qui va être affectée par ce changement. En effet, la recherche montre que lire sur papier et lire sur écran renvoient à des dimensions différentes. Dès lors, les évolutions des scores seront-elles dues aux évolutions des compétences des élèves ou au changement de modalité d’évaluation ? Il n’est pas certain que PISA puisse fournir une réponse à cette question épineuse. De notre point de vue, il faut s’attendre à une rupture de série et l’assumer comme telle. Cependant, le problème de la comparabilité temporelle nous semble devoir être minorée au regard des apports très importants qu’offre ce nouveau dispositif d’évaluation, du contenu de l’évaluation (interactivité, multimédia) à l’analyse des résultats (identification des stratégies des élèves en fonction de leurs traces numériques).

Références

  • OCDE (2013), Cadre d’évaluation et d’analyse du cycle PISA 2012, Paris : OCDE.
  • RODITI E. et SALLES F. (à paraître), « Nouvelles analyses de l’enquête PISA 2012 en mathématiques. Un autre regard sur les résultats », Éducation et Formations, n° 86/87.
  • SALLES F. (2014), « PISA 2012 en résolution de problèmes : meilleure réussite et moins d’inégalités », Note d’Information, n° 8, Paris : DEPP – MENESR.
  • VRIGNAUD P. (2006), « La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? », Revue Française de Pédagogie, n° 157, p. 27-41.

Date de mise en ligne : 01/05/2017

https://doi.org/10.3917/admed.145.0025

Notes

  • [1]
    En France, par exemple, certaines critiques récurrentes subsistent dans le monde de l’éducation et portent sur le format des épreuves, qui seraient composées de QCM (questions à choix multiples), ce qui désavantagerait nos élèves. Or, il faut rappeler que les épreuves comportent environ pour moitié des QCM et pour moitié des questions ouvertes, et c’est précisément sur les QCM que les élèves français sont le plus performants, car ils s’abstiennent plus souvent de répondre aux questions appelant une réponse rédigée et construite.
  • [2]
    Le prochain cycle de PIRLS (Progress in International Reading Literacy Study) sur la compréhension de l’écrit en CM1 aura lieu en 2016. Celui de TIMSS (Trends in International Mathematics and Science Study) sur les mathématiques et les sciences en CM1, 4e et Terminale S aura lieu en 2015 (uniquement CM1 et TS en France).
  • [3]
    Par exemple, l’évaluation TIMSS a été mise en œuvre dans les années 1990 par les organismes qui supervisent PISA aujourd’hui.
  • [4]
    Rappelons que PISA a fait le choix de traduire un même support dans toutes les langues (44 langues, 87 versions), alors qu’un intéressant projet européen (C-BAR) a plutôt choisi de comparer les performances des élèves à partir de textes « indigènes », non traduits. Des procédures d’ancrage (via des supports traduits ou via des élèves bilingues) avaient également été introduites pour assurer la comparabilité.
  • [5]
    Notons que l’analyse détaillée des résultats par items (questions) est en général peu développée par l’OCDE, alors que cette entrée apporte des éclairages très intéressants : cf. par exemple, Roditi et Salles (à paraître) sur la culture mathématique.

Domaines

Sciences Humaines et Sociales

Sciences, techniques et médecine

Droit et Administration

bb.footer.alt.logo.cairn

Cairn.info, plateforme de référence pour les publications scientifiques francophones, vise à favoriser la découverte d’une recherche de qualité tout en cultivant l’indépendance et la diversité des acteurs de l’écosystème du savoir.

Retrouvez Cairn.info sur

Avec le soutien de

18.97.9.175

Accès institutions

Rechercher

Toutes les institutions