Couverture de TT_004

Article de revue

Le sociologue et l'apprenti sorcier : de l'usage raisonné des chiffres (note critique)

Pages 215 à 228

Notes

  • [1]
    C’est-à-dire un instrument que l’on utilise sans s’interroger sur sa constitution (Callon, Latour, 1981).
  • [2]
    Créé en 1976 aux États-Unis, SAS est un logiciel destiné à faciliter le traitement des données statistiques.
  • [3]
    Créé en 1985 dans sa version DOS, SPAD est le logiciel français pionnier dans les analyses exploratoires et l’analyse de données. Facilement accessible aux néophytes, il permet de réaliser les principales procédures statistiques.
  • [4]
    Marcel Mauss nous a rappelé que « les savants sont fils des magiciens » (Mauss, Hubert, 1906). C’est la magie qui a permis à l’individu de « se faire valoir à ses propres yeux et aux yeux des autres. » Pourtant, le sorcier n’est pas maître de tout le processus et il ne se trouve pas toujours initialement convaincu de la véritable existence de son pouvoir. C’est le regard des autres qui le légitime. Ainsi, le sociologue qui fait des statistiques pourrait être amené à croire en la justesse de ses résultats parce qu’ils correspondent à ce qu’on attend de lui ou à ce qu’il attendait lui-même. Il pourrait faire confiance en son logiciel parce que tout le monde l’utilise. Mais alors, le pouvoir du sorcier, son mana dirait Mauss, n’a d’existence que par le consensus social, l’opinion publique de la tribu (Mauss, Hubert, 1904). La valeur des actes qu’il accomplit résulte de ce consensus social.
  • [5]
    Ainsi un chercheur (Edward) déclare : « Vous vous tapez la tête contre un projet et presque au même moment, c’est magique – je reprends encore ce mot – quelque chose se passe. Quelque chose va sortir de tout ça, et ça, ça m’a toujours mystifié. » (Jordan, Lynch, 1996 ; p. 126).
  • [6]
    Rappelons que l’Institut national de la statistique et des études économiques a pris en 1946 la suite du Service national des statistiques, créé en 1941 par Vichy.
  • [7]
    L’enquête « Emploi du temps » de 1998 s’est déroulé en avance sur les autres pays européens puisque l’année suivante était consacrée au recensement national, qui ne pouvait être remis à plus tard, et les recommandations d’Eurostat n’étaient alors pas encore totalement fixées. La France s’est écartée de ces recommandations sur un certain nombre de points. Eurostat souhaitait qu’un jour de semaine et un jour de week-end soient relevés par individu. En outre, l’institut européen prônait des contraintes de remplacement plus sévères en cas d’absence de l’enquêté lors de la visite de l’enquêteur. Le meilleur taux de réponse de la France par rapport à ses voisins est donc totalement illusoire.
  • [8]
    Laboratoire d’analyse secondaire et de méthodes appliquées à la sociologie.
  • [9]
    « On doit donc, dès que l’on veut formuler une généralité sociologique, revenir sur les conditions de production de l’information qu’on utilise pour les incorporer à l’énonciation des constats historiques, puisque la connaissance de ces conditions est indissociable du sens de l’énonciation sur l’ « objet » qu’elles ont permis de construire. C’est là, si l’on entend garder sa pertinence empirique à l’énonciation, le seul moyen d’énoncer généralement sur des séries d’objets construits différemment. » (Passeron, 1991).
  • [10]
    La France était alors un des seuls pays européens à conserver un intervalle de référence de cinq minutes, une précision de dix minutes étant jugée suffisante à l’échelle de la journée.
  • [11]
    Centre de recherche en économie et statistique.
  • [12]
    Tous mes remerciements à A. Chenu pour son soutien estival, et à T. Trétout pour son amicale vigilance.
English version
„Seine Wort und Werke
Merkt ich und den Brauch,
Und mit Geistesstärke
Tu ich Wunder auch.“
Goethe, der Zauberlehrling
« Je vais pouvoir essayer
De faire obéir les esprits,
Jeter des sorts, jouer avec les maléfices !
Je vais montrer tout mon art ! »
Goethe, L’Apprenti Sorcier

1L’utilisation de données quantitatives en sociologie est aujourd’hui une pratique courante et reconnue. Les sociologues se font de plus en plus statisticiens, et il n’y a de nos jours rien d’étonnant à trouver dans un article de sociologie des régressions ou des tests du Chi2. L’autorité des chiffres confère une portée plus générale au propos, et permet de prendre du recul par rapport au caractère circonstanciel des entretiens ou des observations. « En déchirant le réseau de relations qui se tisse continûment dans l’expérience, l’analyse statistique contribue à rendre possible la construction de relations nouvelles, capables, par leur caractère insolite, d’imposer la recherche des relations d’un ordre supérieur qui en rendrait raison » (Bourdieu, Chamboredon, Passeron, 1968). Mais si elle présente de nombreux avantages, l’utilisation de statistiques expose le sociologue à de notables inconvénients. Dès lors qu’il choisit de travailler sur une enquête qu’il n’a pas menée, le sociologue se place dans une situation de dépendance par rapport aux individus qui ont produit ces données. Le chercheur se situe dans un univers semblable aux mondes de l’art que décrit H. Becker (1988) : la production dans ce monde de science est soumise à un certain nombre de normes et de contraintes permettant, et découlant de, la coopération du chercheur avec les autres membres de ce monde scientifique. Ainsi, « un monde de science se composerait de toutes les personnes qui coopèrent à la production des activités et produits caractéristiques de cette science » (Becker, 1993).

2Quelle que soit la nature de sa recherche, le sociologue est amené à coopérer avec d’autres individus, qui vont de l’enquêteur à l’enquêté, en passant par celui qui se laisse observer. Tous influencent notablement la nature de son travail et les résultats qu’il obtient. Aussi, dès lors que le sociologue « fait du quantitatif », et obtient ses données de seconde main, il n’aura pas accès à tout ce que les enquêteurs n’ont pas jugé important, même si lui-même y prête attention. Les contraintes de l’activité des enquêteurs s’imposent également à lui, et peuvent le conduire à des méprises et des erreurs sérieuses. Ce problème a souvent été entrevu, et de nombreux ouvrages de méthode enseignent comment faire un bon ou mauvais usage des réseaux de coopération. Cet article vise à mettre en lumière la nature de cette dépendance, et les risques que le sociologue encourt s’il oublie de questionner son rapport aux objets qu’il utilise.

Le sociologue au sein du monde de science

3La sociologie tient par nature du travail collectif. Le sociologue est au centre d’une chaîne de coopération : il doit collaborer avec un certain nombre d’acteurs qui n’ont pas forcément les mêmes préoccupations que lui. C’est le cas en aval, s’il veut publier pour faire connaître ses travaux et exister au sein du monde de science : il doit prendre en compte les attentes et les contraintes des éditeurs et des comités de rédaction. Mais c’est surtout le poids des liens du sociologue avec la chaîne de production qui va déterminer le genre d’œuvre qu’il peut effectivement produire, comme pour l’artiste au sein du monde de l’art. Ainsi, c’est en amont que se multiplient les nœuds de coopération et donc la perte de contrôle du sociologue. Plus le sociologue délègue les opérations de recueillement de l’information, plus les contraintes propres à chaque étape et à chaque acteur peuvent lui échapper. Ces transformations que subit l’information sont appelées couramment des biais, et les sociologues ont appris à les rechercher systématiquement. Ainsi l’interaction entre l’enquêteur et l’enquêté transforme la nature de l’information recueillie. L’enquêté peut ne pas tout dire, tout comme celui qu’on observe peut se comporter différemment parce qu’il est observé. Les données qualitatives sont souvent directement recueillies par le chercheur qui les analyse. Mais le sociologue qui utilise des données quantitatives ne les a que rarement réunies lui-même. Or dans les deux cas, les personnes qui fournissent la matière de sa recherche influencent la nature de l’information dont va disposer le chercheur. Le sociologue qui fait du quantitatif se trouve donc plus ou moins éloigné du processus de fabrication de l’information, et il est par conséquent plus sujet à oublier les contraintes propres aux autres individus du réseau de coopération.

4Comme l’a montré Becker (1988), la coopération au sein de la chaîne repose en grande partie sur des conventions. Ainsi, les statisticiens attribuent à chaque individu d’une enquête un numéro d’identifiant. Mais ces conventions régissent également le rapport du sociologue à son public. C’est parce qu’il utilise des procédures statistiques définies qu’il va être compris de son lecteur. Le sociologue se retrouve finalement devant un grand nombre d’objets plus ou moins figés. Cependant leurs contenus lui échappent souvent. C’est pourquoi s’opère dans la pratique quantitative une perte importante de contrôle du sociologue sur son ouvrage. Elle concerne principalement la transformation des données, dès lors que le sociologue ne peut plus maîtriser l’ensemble des opérations qui vont conduire aux résultats qu’il va analyser. Même si le processus qui a conduit à obtenir ces résultats repose sur de solides théories probabilistes et mathématiques, le sociologue n’a pas toujours les compétences suffisantes pour saisir l’ensemble du traitement. Dans la plupart des cas, il ne peut au mieux qu’ « avoir une vague idée » de la logique de la méthode. Le sociologue est généralement contraint de prendre les résultats tels quels.

5Par ailleurs, son travail est préformaté par les procédures qui lui sont proposées. À moins de se lancer dans la programmation – effort que fournissent peu de chercheurs – le sociologue doit coopérer avec les concepteurs des softwares qu’il utilise. Ces procédures sont une boîte noire pour lui. [1] Les analyses statistiques reposent donc dans une certaine mesure sur la confiance que le chercheur a en son logiciel et en ceux qui l’ont conçu. Utiliser SAS [2] demande déjà une certaine connaissance de son langage, et la complexité de ce dernier incite toujours le sociologue à s’interroger sur la validité des résultats. Mais il existe des logiciels beaucoup plus faciles d’accès. Avec la dernière version de SPAD [3] par exemple, il suffit de déplacer le dessin représentant la procédure souhaitée dans la case à exécuter, et de rentrer les paramètres demandés pour obtenir des tableaux et des graphiques pouvant agrémenter une recherche. Les logiciels statistiques fournissent très vite des sorties qui peuvent être analysées et interprétées à foison. L’accès aux chiffres n’est donc pas un problème. L’accès au sens en demeure un : que peut-on vraiment faire dire aux chiffres ? Un halo d’incertitude entoure toujours les résultats obtenus. Le chercheur n’est pas à l’abri d’une défaillance de la chaîne de coopération à un endroit qu’il ne maîtrise pas. Il y a un aspect magique dans le traitement statistique. [4] Pour pouvoir croire en ses chiffres, le sociologue doit faire confiance aux individus – le programmateur par exemple – avec lesquels il collabore au sein de la chaîne de coopération. Il s’agit ici de confiance et non de foi, car le chercheur a toujours l’idée que s’il disposait de la volonté et du temps nécessaire, il pourrait comprendre et contrôler ce qui a pour lui le statut de boîte noire. Mais comme l’ont montré K. Jordan et M. Lynch (1996) dans le cas d’un laboratoire de biologie moléculaire, cette perte de contrôle entraîne une mystification de la technique. [5] Le chercheur est conscient qu’il ne maîtrise pas tout, ce qui se traduit par l’apparition de rituels. Le surgissement des statistiques sur l’écran de l’ordinateur a quelque chose de magique.

6Pour désenchanter la fabrication des statistiques, le sociologue doit pratiquer. C’est l’habitude qui lui permet de comprendre « la philosophie » du logiciel et de maîtriser l’ensemble de son fonctionnement. Ainsi, un utilisateur rigoureux de SAS sait que même si un programme n’indique aucune erreur, une simple virgule mal placée peut fausser les résultats. L’habitude accroît la confiance qu’a le sociologue dans les autres acteurs de la chaîne de coopération. Il apprend à connaître leurs défauts et à les corriger. La création de statistiques demande donc une vigilance continue pour ne pas courir le risque d’analyser pendant plusieurs pages des résultats absurdes.

Le sociologue et l’enquête

7Le risque d’égarement du sociologue varie également selon la nature des données qu’il utilise. La chaîne de coopération et la complexité des objets sont d’autant plus importantes que le sociologue est éloigné du processus de production des données. Il s’agit ici d’aller contre l’idée reçue qu’il vaut toujours mieux travailler sur une grande enquête que sur des données plus restreintes mais personnelles. Produire soi-même ses données réduit le nombre d’intermédiaires dans la chaîne de coopération et augmente donc la maîtrise du sociologue. Au contraire, utiliser des données de seconde main diminue l’emprise du sociologue sur ses chiffres. C’est le cas notamment quand les données proviennent d’une grande institution comme l’INSEE. La chaîne de coopération atteint alors le summum de sa complexité et les possibilités d’égarement pour le chercheur sont nombreuses.

8L’INSEE est aujourd’hui le plus important producteur de données statistiques en France, et ses enquêtes sont une des principales sources de grande échelle pour la sociologie quantitative. Cette institution s’est forgé depuis plus d’un demi-siècle [6] un capital de confiance considérable, et les données qu’elle fournit jouissent d’un préjugé très favorable. Les résultats qu’elle publie servent de référence, et sont réutilisés par de nombreux spécialistes. Le sociologue se fait souvent moins critique et prudent quand il travaille sur une enquête émanant d’une telle institution. Il semble que la production de ces données constitue une boîte noire difficilement accessible pour le chercheur. Pourtant, aussi éloigné qu’il soit de cette production, le travail du sociologue est contraint par les limites qui sont imposées en amont à l’enquête. Prenons l’exemple de l’enquête « Emploi du temps » pour faire apparaître les particularités d’un tel réseau de coopération.

9La perspective dans laquelle s’inscrit l’enquête « Emploi du temps » est ancienne. L’analyse de l’organisation quotidienne des activités était déjà présente dans les travaux de chercheurs de l’INED, comme ceux de J. Stoetzel (1948) ou d’A. Girard (1958). Mais ce n’est qu’au milieu des années soixante, avec un programme dirigé par Alexandre Szalai, que l’étude systématique des emplois du temps des ménages a pris forme. Ce programme concernait alors douze pays de l’Est et de l’Ouest, observés autour de l’année 1965. La dernière enquête a été menée en 1998, d’après les recommandations d’Eurostat. [7] Il est possible de se procurer, directement à l’INSEE ou par l’intermédiaire du LASMAS [8], une base de données de près de 15 000 individus, à partir de laquelle on peut très rapidement extraire des statistiques. Mais si le sociologue ne s’intéresse pas aux particularités de cette enquête, ses énoncés peuvent perdre tout caractère sociologique. [9] L’interprétation, et donc l’énonciation sociologique, de résultats statistiques – par exemple la lecture d’un tableau – ne peut avoir lieu qu’en prenant en compte ces dimensions externes au tableau. Il s’agit de s’interroger sur les conditions de production de ces données, et de ne pas se contenter de faire confiance à ceux qui les ont produites.

10L’enquête « Emploi du temps » de 1998 a été réalisée par l’INSEE auprès de 8 000 ménages. Elle s’inscrit dans la lignée des enquêtes du même type, réalisées en 1966, 1974 et 1986, et repose sur la tenue d’un carnet journalier. Chaque enquêté y note ses activités tout au long de la journée en indiquant leur nature, leur début et leur fin. Le carnet recouvre ainsi une journée de 0h00 à 24h00, découpée en plages horaires de même pas. Si plusieurs activités sont réalisées en même temps, seules les deux principales sont retenues. L’une est codée en activité principale et l’autre en activité secondaire. L’enquêté doit également renseigner le lieu ou trajet, en présence de qui est effectuée l’activité, et dans quel but (personnel, professionnel, pour un autre ménage, associatif).

11Deux questionnaires complètent le carnet. Le premier renseigne spécifiquement sur le ménage. Il touche des points aussi divers que le logement, les ressources ou encore les réceptions. Le second questionnaire est rempli par chacun des membres du ménage, et apporte des informations plus précises et individuelles, qui vont de l’état de santé aux travaux ménagers. L’enquête de 1998 dispose également d’un calendrier de travail hebdomadaire, qui décrit par quart d’heure les horaires de travail professionnel au cours d’une semaine, et qui permet de mieux déterminer le type de la journée recueillie. La nature des informations contenues dans chacun de ces questionnaires a été décidée par le concepteur de l’enquête, et est très marquée par les préoccupations de ce dernier. Le sociologue n’aura accès qu’aux variables qui correspondent à des points du questionnaire. Il lui est impossible de s’interroger avec précision sur un effet revenu si cette variable n’a pas été renseignée par l’enquêteur. Il s’agit donc pour le concepteur d’anticiper les besoins de ceux qui vont exploiter l’enquête. Et au premier rang de ces besoins se trouve la bonne représentativité des données recueillies. Le producteur de l’enquête doit par conséquent s’attacher à réduire le nombre de biais.

12Ainsi, l’enquête « Emploi du temps » a été engagée sur un an afin d’éviter toute saisonnalité, et de telle sorte que tous les jours de la semaine soient représentés. L’échantillon a été choisi au moyen d’un tirage par sondage de 12 000 logements sur une partie des logements du recensement de la population de 1990. Il a été tiré de manière uniforme, c’est-à-dire qu’on a cherché à ne sur-représenter aucune population. Entre deux enquêtes, un même logement ne peut être tiré deux fois de suite. Tous les individus du ménage âgés de plus de quinze ans sont alors consultés sur leurs emplois du temps. L’INSEE a ainsi recueilli 15 435 carnets appartenant à des ménages complets, c’est-à-dire dont tous les membres ont répondu. Ces réponses constituent la base de données sur laquelle le chercheur va pouvoir raisonner.

13Mais d’emblée ces carnets posent un certain nombre de problèmes. Ils ne sont pas remplis de la même manière selon les individus. Certains donnent une multitude de détails et de précisions, alors que d’autres se contentent d’inscrire uniquement les principales activités. Ces carnets sont donc marqués par la richesse de l’information qu’ils contiennent, mais en même temps par l’hétérogénéité de cette information. Pour s’en convaincre, il suffit de s’intéresser au nombre de lignes des carnets : il varie entre 7 et 63 lignes pour une médiane de 22. Comparer ces données demande donc un certain nombre de précautions. D’autant plus que les variables temporelles sont toutes positives, ce qui pose des problèmes pour les analyses en terme d’hypothèse sur la distribution des observations, et amène à renoncer à un certain nombre de densités usuelles, au premier rang desquelles la loi normale. Les objets proposés au chercheur au sein du réseau de coopération ne conviennent donc pas toujours.

14On ne doit en outre pas oublier que l’enquête ne fournit pour chaque individu qu’une seule observation de vingt-quatre heures. Il est donc difficile de mettre en perspective les activités décrites, surtout lorsqu’il s’agit d’une activité peu fréquente – la pêche, par exemple. S’agit-il d’une activité exceptionnelle, effectuée très rarement ou bien d’une occupation quotidienne ? Il est impossible de le déterminer de manière certaine. De plus, chacune des tâches décrites comporte une grande part de subjectivité. Ainsi le fait de cuisiner peut être perçu comme une corvée ou comme un loisir. C’est pourquoi les Anglo-saxons qualifient ce type d’activité de « semi-loisirs », alors que l’INSEE les inscrit dans le travail domestique. Il est difficile de saisir les valeurs et les contraintes sociales qui transcendent ces occupations. Ce qui est codé comme un dîner avec des personnes extérieures au ménage peut aussi bien se révéler être un instant de loisir avec des amis qu’une pénible obligation familiale. Il convient donc de rester prudent sur les interprétations qu’on pourrait extraire des résultats. Utiliser une enquête de l’INSEE demande d’être conscient des limites qu’imposent les données en elles-mêmes. « Faire du quantitatif » peut demander un investissement assez lourd pour finalement peu de résultats probants ou robustes.

Des comparaisons hasardeuses

15Les problèmes augmentent encore quand le sociologue ne se contente pas de l’étude statique, et est attiré par la description de dynamiques. Il dispose pour cela de quatre enquêtes « Emploi du temps » (1966, 1974, 1986, 1998) et donc à chaque fois autant de concepteurs, d’enquêteurs et d’enquêtés avec qui il va devoir coopérer. La conséquence est immédiate : les chaînes de coopération sont parfois incompatibles, et il est difficile de comparer les quatre enquêtes. Ces enquêtes souffrent toutes de différences notables de méthodes, d’échantillon et de codage des activités. L’enquête de 1966 s’est déroulée en février et mars 1966 dans six villes moyennes du Nord et de l’Est de la France, et en 1967 à Nîmes et Paris. Elle ne permet donc que des comparaisons approximatives avec l’enquête 1998, réduite à la population urbaine. Par ailleurs, l’enquête de 1966 ne s’intéresse qu’aux foyers où vit au moins un actif, et seuls les individus de 18 à 64 ans sont interrogés. Les inactifs, des étudiants aux retraités, y sont donc sous-représentés. L’enquête de 1974 néglige toujours les campagnes. Il faudra attendre 1986 pour que l’enquête concerne toute la population française, et qu’on y trouve l’emploi du temps des agriculteurs.

16Il semble donc que seules les deux dernières enquêtes aient un échantillon comparable. Mais la perspective de comparaison internationale a été privilégiée en 1998 sur les comparaisons longitudinales, et de nombreuses modifications ont été réalisées. Le thème dominant du questionnaire individuel n’est plus le travail domestique, mais le travail professionnel. Par ailleurs, l’INSEE a abandonné lors de la dernière enquête le codage manuel des activités pour un traitement automatique des activités. Ce n’est plus l’enquêteur qui assigne un nombre à chaque activité mais un programme informatique : le réseau de coopération s’est étendu aux programmateurs et aux informaticiens responsables, et les difficultés pour le chercheur s’amplifient conséquemment. Chaque ligne du carnet journalier est désormais analysée par l’ordinateur et codée à partir des mots qui la composent. Ce traitement donne lieu à quelques coquilles, négligeables à l’échelle de la population totale, mais qui invitent l’utilisateur averti à consulter le catalogue des codes dès qu’il se penche sur des individus ou des groupes de faible effectif. Ainsi, il ne doit pas être étonné de constater qu’une agricultrice passe sa matinée à prendre des repas : le repas des animaux est codé en alimentation ! De même, si une nourrice a inscrit dans son carnet « Je les mets sur le pot », le programme a codé cette activité en tant que préparation culinaire. Ces erreurs peuvent entraîner l’apparition de ce que le statisticien appelle des « valeurs extrêmes », et peuvent fausser un calcul de moyenne. Au sociologue donc d’avoir la patience de déceler et de décrypter ces égarements informatiques, et de ne pas se lancer dans des conclusions hâtives sur l’emploi du temps des agricultrices ou des nourrices.

17Mais le bouleversement le plus important entre la dernière enquête et les précédentes est le changement de pas du carnet de cinq à dix minutes. Sur ce point sont intervenus des acteurs encore plus lointains dans la chaîne de coopération. En effet, il a fallu prendre en compte la façon dont les autres chercheurs en Europe et dans le monde réalisent leurs enquêtes, pour pouvoir réaliser des comparaisons internationales. La modification du pas du carnet était ainsi une des principales recommandations d’Eurostat. [10] La conséquence est immédiate : en 1998, chaque ligne du carnet représente deux fois plus de temps que pour les enquêtes précédentes, et les activités les plus courtes peuvent donc disparaître dans de plus longues. Or certaines activités, comme les repas, sont très sensibles à cette variation du format du questionnaire. Ainsi une pause-café ou un déjeuner sur le pouce n’apparaîtront pas forcément s’ils durent moins de dix minutes, alors que c’était moins le cas quand chaque ligne du carnet couvrait cinq minutes. La perte de précision est importante pour le travail domestique en général, plus fractionné que les autres activités, et cela peut influer directement sur la durée des repas. Les individus peuvent par exemple reporter une tâche domestique courte (mettre la table) sur la durée du repas. Il y a donc ici une possibilité d’apparition de biais méthodologiques non négligeables dans les comparaisons. Et pour pouvoir mettre en parallèle les carnets de différentes années, il faudra ne retenir qu’une plage horaire de cinq minutes sur deux, pour les enquêtes antérieures à 1998. On perd alors la moitié des activités les plus courtes, ce qui peut d’ailleurs peut-être compenser l’effet du changement méthodologique que nous venons de décrire. Mais rien n’est certain, et le sociologue se devra de rester prudent. Au final, moyennant une série de recodages, les comparaisons ne peuvent toucher que l’enquête de 1998 et une plage horaire sur deux des enquêtes de 1966, 1974 et 1988, limitées à la population urbaine ainsi qu’aux 18-64 ans. Les données imposent donc leurs propres limites au chercheur et il devient vite hasardeux de généraliser les résultats obtenus.

18Quand bien même le sociologue serait conscient de ces restrictions qui circonscrivent sérieusement la portée des statistiques qu’il a obtenues ou qu’il emprunte à des collègues, il lui reste à échapper à des pièges bien plus sournois. Il est des biais qui sont dissimulés à l’œil du sociologue prudent, et connus des seuls avertis. Les bases de données fournies par l’INSEE ou le LASMAS comportent une variable de pondération qui permet d’obtenir des statistiques exportables à l’échelle de la population totale. Tout travail sérieux se doit de les utiliser. C’est cette pondération qui permet de donner un sens aux pourcentages que le sociologue a plus ou moins douloureusement produits à partir de sa base, et qu’il exhibe fièrement. Et si ces poids posaient problème ? Cette question centrale pour le consommateur de statistiques n’est pourtant jamais abordée. Cette variable de pondération est prise telle quelle sans même un examen attentif. Elle repose sur une construction complexe, et s’interroger sur sa pertinence demande un investissement très lourd, que finalement personne n’est prêt à fournir. On fait confiance au producteur de l’enquête.

19Et pourtant, cette pondération porte souvent en elle des biais. C’est le cas de l’enquête « Emploi du temps ». L’INSEE a laissé les enquêteurs choisir les jours de remplissage du carnet. Cette opération étant précédée et suivie par une visite de l’enquêteur, peu enclin à déranger les enquêtés le dimanche : on observe une sous-représentation des samedis, dimanches et lundis. Or la pondération prend en compte tous les jours du lundi au vendredi de la même façon. On a donc une erreur de pondération sur le lundi. Ce phénomène est d’autant plus fâcheux pour les week-ends que ceux-ci devraient être sur-représentés, car ils sont le cadre des activités les plus diversifiées et notamment des pratiques de loisir. Cette sous-représentation pose donc un problème de généralisation des résultats obtenus à partir de l’enquête. Mais ce n’est pas tout. Le codage des CSP pose également un problème dans la mesure où le code établi en fonction du libellé d’activité a été négligé. Or le codage des CSP sert au redressement. On doit noter par ailleurs que les individus les moins lettrés ont du mal à remplir le carnet. On a donc une sous-représentation des catégories populaires, compensée par l’erreur de redressement. Au final, on a une sur-représentation des diplômés et des cadres qui n’est pas sans poser de problèmes, et qui est méconnue d’un grand nombre d’utilisateurs de ces enquêtes. Les limitations qu’imposent les données sont donc considérables et pas toujours apparentes pour le sociologue qui se situe à l’autre extrémité du monde de science. Le chercheur se retrouve donc confronté à un arbitrage entre confiance et mise en cause du travail des autres acteurs de la chaîne de coopération.

Conclusion : de l’abandon des formules magiques en statistiques

20Alors que faire ? Ne plus faire de quantitatif n’est bien évidemment pas la solution. Mais le sociologue qui désire faire appel à ces bases de données se doit de rester prudent et humble sur ses résultats, surtout s’il tient les statistiques de seconde main. Si certains laboratoires, et en particulier ceux du CREST [11], ont accès directement aux données avant même qu’elles soient accessibles aux autres, le « chercheur moyen » devra se les procurer par l’intermédiaire du LASMAS, qui est chargé d’archiver et de diffuser ces enquêtes sous certaines conditions. Il est alors essentiel de prendre le temps de se pencher sur l’ensemble des documents qui accompagnent les enquêtes de l’INSEE, et qui sont pour une bonne part consultables sur le site du LASMAS. Ces ouvrages signalent des limites qui apparaissent souvent après la récolte des données, et qui restent inconnues du statisticien-amateur pressé. Ne pas se les procurer et s’y reporter revient à prendre des risques pour la recherche que les chiffres ne faisaient parfois qu’illustrer.

21Il convient ainsi de limiter au maximum la part de sorcellerie et d’incertitude que peut encore parfois comporter la démarche quantitative. Pour cela, nous pouvons reprendre à notre compte la « ficelle » d’Howard Becker : « Demandez-vous d’où viennent les données que vous utilisez, qui les a collectées, sur la base de quelles contraintes organisationnelles et conceptuelles, et comment tout cela affecte le tableau à partir duquel vous travaillez » (Becker, 2002). Naturellement, cela ne simplifie pas les choses. Becker ajoute d’ailleurs immédiatement que « cela a tendance à compliquer – plus que de raison, vous direz-vous peut-être – le travail d’analyse d’un simple tableau de données ; mais les données collectées par les autres souffrent de trop de défauts intrinsèques potentiels pour que l’on puisse se permettre de ne pas faire cet effort. »

22La création ou la consommation de statistiques ne peut procéder que d’une véritable recherche sur la nature des données utilisées. Ensuite, elle ne peut avoir lieu qu’en désenchantant la production des statistiques elle-même. Le quantitativiste se doit de ne recourir qu’aux méthodes dont il maîtrise totalement le fonctionnement et de toujours tester la robustesse de ses résultats. Les procédés qui paraissent les plus rapides et les plus aisés se révèlent souvent catastrophiques, car le sociologue perd tout contrôle sur la fabrication des chiffres qu’il utilise.

23Les « bonnes vieilles méthodes » sont finalement les plus sûres. Mieux vaut passer des heures à balayer une enquête éprouvée, plutôt que de se précipiter sur des sources et des formules inconnues. Préférer la facilité qui consiste à s’en remettre à une incertaine magie pourrait amener l’apprenti quantitativiste à se noyer dans un océan de chiffres. [12]

RÉFÉRENCES

  • BECKER (H. S.), 1988. Les Mondes de l’art, Flammarion, Paris.
  • BECKER (H. S.), 1993. “Theory: The Necessary Evil”. In: FLINDER (D. J.), MILLS (G. E.), Theory and Concepts in Qualitative Research: Perspective from the Field, Teachers College Press, New York (consultable également sur Internet à l’adresse suivante: http://www.soc.ucsb.edu/faculty/hbecker/theory.html).
  • BECKER (H. S.), 2002. « Échantillons », Les Ficelles du métier, La Découverte, Paris.
  • BOURDIEU (P.), CHAMBOREDON (J.-C.), PASSERON (J.-C.), 1968. Le Métier de sociologue, EHESS, Mouton, Paris.
  • CALLON (M.), LATOUR (B.), 1981. “Unscrewing the Big Leviathan”. In: CICOUREL (A.), KNORR (K.) (Ed.), Advances in Social Theory and Methodology, Routledge, Londres.
  • GIRARD (A.), 1958. « Le budget-temps de la femme mariée dans les agglomérations urbaines », Population, 13 (4).
  • JORDAN (K.), LYNCH (M.), 1996. « Rituel et rationalité dans l’exécution de la “préparation des plasmides” ». In : CLARKE (A.), FUJIMURA (J.) (Ed.), La Matérialité des sciences, Synthélabo Groupe, (édition originale : 1992, Princeton University Press).
  • MAUSS (M.), HUBERT (H.), 1906. « Introduction à l’analyse de quelques phénomènes religieux ».
  • MAUSS (M.), HUBERT (H.), 1904. « L’origine des pouvoirs magiques dans les sociétés australiennes. ».
  • PASSERON (J.-C.), 1991. « Ce que dit un tableau et ce qu’on en dit », Le Raisonnement sociologique, Nathan, Paris.
  • STOETZEL (J.), 1948. « Une étude du budget-temps de la femme dans les agglomérations urbaines », Population, 3 (1).

Date de mise en ligne : 01/01/2008

https://doi.org/10.3917/tt.004.0215

Notes

  • [1]
    C’est-à-dire un instrument que l’on utilise sans s’interroger sur sa constitution (Callon, Latour, 1981).
  • [2]
    Créé en 1976 aux États-Unis, SAS est un logiciel destiné à faciliter le traitement des données statistiques.
  • [3]
    Créé en 1985 dans sa version DOS, SPAD est le logiciel français pionnier dans les analyses exploratoires et l’analyse de données. Facilement accessible aux néophytes, il permet de réaliser les principales procédures statistiques.
  • [4]
    Marcel Mauss nous a rappelé que « les savants sont fils des magiciens » (Mauss, Hubert, 1906). C’est la magie qui a permis à l’individu de « se faire valoir à ses propres yeux et aux yeux des autres. » Pourtant, le sorcier n’est pas maître de tout le processus et il ne se trouve pas toujours initialement convaincu de la véritable existence de son pouvoir. C’est le regard des autres qui le légitime. Ainsi, le sociologue qui fait des statistiques pourrait être amené à croire en la justesse de ses résultats parce qu’ils correspondent à ce qu’on attend de lui ou à ce qu’il attendait lui-même. Il pourrait faire confiance en son logiciel parce que tout le monde l’utilise. Mais alors, le pouvoir du sorcier, son mana dirait Mauss, n’a d’existence que par le consensus social, l’opinion publique de la tribu (Mauss, Hubert, 1904). La valeur des actes qu’il accomplit résulte de ce consensus social.
  • [5]
    Ainsi un chercheur (Edward) déclare : « Vous vous tapez la tête contre un projet et presque au même moment, c’est magique – je reprends encore ce mot – quelque chose se passe. Quelque chose va sortir de tout ça, et ça, ça m’a toujours mystifié. » (Jordan, Lynch, 1996 ; p. 126).
  • [6]
    Rappelons que l’Institut national de la statistique et des études économiques a pris en 1946 la suite du Service national des statistiques, créé en 1941 par Vichy.
  • [7]
    L’enquête « Emploi du temps » de 1998 s’est déroulé en avance sur les autres pays européens puisque l’année suivante était consacrée au recensement national, qui ne pouvait être remis à plus tard, et les recommandations d’Eurostat n’étaient alors pas encore totalement fixées. La France s’est écartée de ces recommandations sur un certain nombre de points. Eurostat souhaitait qu’un jour de semaine et un jour de week-end soient relevés par individu. En outre, l’institut européen prônait des contraintes de remplacement plus sévères en cas d’absence de l’enquêté lors de la visite de l’enquêteur. Le meilleur taux de réponse de la France par rapport à ses voisins est donc totalement illusoire.
  • [8]
    Laboratoire d’analyse secondaire et de méthodes appliquées à la sociologie.
  • [9]
    « On doit donc, dès que l’on veut formuler une généralité sociologique, revenir sur les conditions de production de l’information qu’on utilise pour les incorporer à l’énonciation des constats historiques, puisque la connaissance de ces conditions est indissociable du sens de l’énonciation sur l’ « objet » qu’elles ont permis de construire. C’est là, si l’on entend garder sa pertinence empirique à l’énonciation, le seul moyen d’énoncer généralement sur des séries d’objets construits différemment. » (Passeron, 1991).
  • [10]
    La France était alors un des seuls pays européens à conserver un intervalle de référence de cinq minutes, une précision de dix minutes étant jugée suffisante à l’échelle de la journée.
  • [11]
    Centre de recherche en économie et statistique.
  • [12]
    Tous mes remerciements à A. Chenu pour son soutien estival, et à T. Trétout pour son amicale vigilance.

Domaines

Sciences Humaines et Sociales

Sciences, techniques et médecine

Droit et Administration

bb.footer.alt.logo.cairn

Cairn.info, plateforme de référence pour les publications scientifiques francophones, vise à favoriser la découverte d’une recherche de qualité tout en cultivant l’indépendance et la diversité des acteurs de l’écosystème du savoir.

Retrouvez Cairn.info sur

Avec le soutien de

18.97.9.173

Accès institutions

Rechercher

Toutes les institutions