Bibliographie Critique

Francisco Muñoz-Pérez; Dominique Diguet

doi:10.3917/popu.1301.0179

Population 2013/1 Vol. 68

Article de revue

Bibliographie Critique

Par Francisco Muñoz-Pérez
et Dominique Diguet

Pages 179 à 195

MUÑOZ-PÉREZ, Francisco
et DIGUET, Dominique,

2013. Bibliographie Critique. Population, 2013/1 Vol. 68, p.179-195. DOI : 10.3917/popu.1301.0179. URL : https://shs.cairn.info/revue-population-2013-1-page-179?lang=fr.

Muñoz-Pérez, Francisco.
et al.

« Bibliographie Critique ». Population, 2013/1 Vol. 68, 2013. p.179-195. CAIRN.INFO, shs.cairn.info/revue-population-2013-1-page-179?lang=fr.

Muñoz-Pérez, F.
et Diguet, D.

(2013). Bibliographie Critique. Population, . 68(1), 179-195. https://doi.org/10.3917/popu.1301.0179.

https://doi.org/10.3917/popu.1301.0179

Notes

[1]
Laura Thomson (2006), « S-PLUS (and R) Manual to accompany Agresti’s Categorical Data Analysis (2002) » accessible à l’adresse suivante : http://www-stat.stanford.edu/~owen/courses/306a/Splusdiscrete2.pdf.

Citer cet article

Muñoz-Pérez, F.
et Diguet, D.

(2013). Bibliographie Critique. Population, . 68(1), 179-195. https://doi.org/10.3917/popu.1301.0179.

Muñoz-Pérez, Francisco.
et al.

« Bibliographie Critique ». Population, 2013/1 Vol. 68, 2013. p.179-195. CAIRN.INFO, shs.cairn.info/revue-population-2013-1-page-179?lang=fr.

MUÑOZ-PÉREZ, Francisco
et DIGUET, Dominique,

2013. Bibliographie Critique. Population, 2013/1 Vol. 68, p.179-195. DOI : 10.3917/popu.1301.0179. URL : https://shs.cairn.info/revue-population-2013-1-page-179?lang=fr.

https://doi.org/10.3917/popu.1301.0179

Notes

[1]
Laura Thomson (2006), « S-PLUS (and R) Manual to accompany Agresti’s Categorical Data Analysis (2002) » accessible à l’adresse suivante : http://www-stat.stanford.edu/~owen/courses/306a/Splusdiscrete2.pdf.

English

Logiciels statistiques appliqués aux sciences sociales

1Thème coordonné par Arnaud Bringé, Service des « Méthodes statistiques » de l’Ined

2Depuis 2009, année de parution dans Population d’une première bibliographie critique sur des ouvrages de statistique en sciences sociales, nombre de publications sont apparues dans ce domaine, ceci allant de pair avec l’utilisation grandissante du logiciel R en statistique appliquée. Cette nouvelle bibliographie critique reflète le fort intérêt que suscite cet outil, et relève en même temps l’existence de pratiques désormais généralisées, où jeux de données, programmes, compléments sont maintenant souvent disponibles en libre accès sur des sites informatiques associés.

3Cependant, d’autres ouvrages importants ont été publiés récemment en dehors du courant ci-dessus évoqué. Parmi ceux-ci, deux font l’objet des premières analyses présentées. Il s’agit du manuel pratique de J. Wang, H . Xie et J. H. Fisher sur la mise en œuvre de modèles multiniveaux à l’aide du logiciel Sas^®, et de la nouvelle édition de l’ouvrage majeur d’Alan Agresti, « Categorical Data Analysis ».

Jichuan Wang, Haiyi Xie et James H. Fischer, Multilevel Models: Applications Using SAS^®, Berlin-Boston, De Gruyter / Beijing, Higher Education Press, 2012, IX-264 p.

4L’application des techniques multiniveaux s’est développée depuis une trentaine d’années dans les sciences de l’éducation (Goldstein, 1995 ; Bressoux, 2008), et en démographie (Courgeau, 2004). Les applications ont été d’abord mises en œuvre au travers d’outils initialement développés par les équipes qui diffusaient ces méthodologies. On peut par exemple citer le logiciel MlWin^® développé initialement par l’Institute of Education de Londres, ou le logiciel HLM^®. La mise en œuvre de modèles multiniveaux à partir de routines développées dans les logiciels statistiques standards a été beaucoup plus tardive, et peu de manuels sur cette problématique ont jusqu’à présent été publiés.

5Les auteurs de l’ouvrage nous proposent ici une mise en œuvre progressive de modèles multiniveaux avec le logiciel Sas^®. Un premier chapitre introductif retrace brièvement le cadre théorique d’application des modèles multiniveaux, en insistant sur leurs avantages et leurs limites. On y trouve un bref (trop bref ?) examen des fonctionnalités de différents logiciels spécialisés dans ce type de techniques (MlWin, amL) ou généralistes les ayant récemment intégrées (Sas^®, Spss^®, Stata^®). On regrettera qu’aucune fonctionnalité du logiciel R, pourtant de plus en plus utilisé dans le domaine de la recherche, n’y soit mentionnée.

6Le chapitre deux pose les bases du modèle linéaire, en insistant de manière synthétique sur les grandeurs à analyser, la démarche de construction du modèle et les hypothèses sous-jacentes. Cet aspect pédagogique et synthétique est l’une des caractéristiques du manuel, qui se fixe comme objectif la clarté vis-à-vis du lecteur, qualité trop souvent absente dans des ouvrages similaires. Les modèles à trois niveaux, de structure plus complexe, sont malheureusement trop peu abordés en fin de chapitre, et auraient mérité un développement spécifique dans un chapitre distinct. Le chapitre trois propose la mise en œuvre avec le logiciel Sas^® (procédure Mixed) des concepts énoncés dans le chapitre précédent, avec des aides à l’interprétation très nombreuses et souvent précieuses. Les modèles à constante aléatoire et pente aléatoire sont testés successivement.

7Le chapitre quatre s’intéresse à l’application de ces techniques dans le cadre de données longitudinales, où une grandeur est mesurée à plusieurs instants sur les mêmes individus. Là encore, après un bref rappel théorique, la mise en œuvre avec la procédure Mixed est explicitée et largement commentée. Les cas de covariables fixes et covariables du moment sont traités successivement. Dans le chapitre suivant, les auteurs traitent du cas non linéaire, souvent utilisé en sciences sociales. La théorie est rapidement présentée (peut-être trop rapidement encore une fois), en mentionnant les modèles logit et probit. Sur le plan de la pratique, le modèle logit est appliqué successivement au même jeu de données en utilisant les deux procédures existant sous Sas^® pour traiter ce cas de figure : Glimmix et Nlmixed. Cette dernière procédure est délicate à employer, mais les options et sorties disponibles sont décrites de manière complète. Peut-être aurait-on aimé que les auteurs s’attachent à décrire plus longuement les conditions d’utilisation des deux procédures, en indiquant les potentiels propres à chacune. Les modèles plus complexes, modèle polytomique et modèle de Poisson, sont aussi décrits et analysés dans le cadre multiniveau. Le chapitre six traite enfin de cas plus complexes : modèles de Poisson avec sur-dispersion, utilisation de techniques à base de bootstrap, données tronquées. La question des valeurs manquantes et celle des tailles d’échantillon nécessaires dans une analyse multiniveau sont brièvement évoquées en fin d’ouvrage. Elles auraient pourtant eu besoin de développements plus importants.

8Finalement, cet ouvrage apparaît au lecteur très riche quant aux techniques statistiques utilisées et en même temps très didactique. Il est un excellent complément aux ouvrages théoriques qui existent sur le sujet. La démarche est progressive, et les sorties logicielles sont clairement analysées et commentées. Les utilisateurs du logiciel Sas^® désirant se lancer dans des analyses multiniveaux peuvent maintenant compter sur un manuel de qualité, qui les aidera à comprendre la mise en œuvre, sans leur économiser, bien entendu, un énoncé clair de leur problématique.

Références

9Bressoux P., 2008, Modélisation statistique appliquée aux sciences sociales. Méthodes en sciences humaines, Bruxelles, De Boeck.

10Courgeau D., 2004, Du groupe à l’individu. Synthèse multiniveau, Paris, Ined.

11Goldstein H., 1995, Multilevel Statistical Models (2^d ed.), London, Arnold.

12Hox J., 2002, Multilevel Analysis: Techniques and Applications, Mahwah, NJ, Lawrence Erlbaum Associates.

13Raudenbush S., Bryk A., 2002, Hierarchical Linear Models: Applications and Data Analysis Methods, Thousand Oaks, Sage.

14Arnaud Bringé

Alan Agresti, Categorical Data Analysis (3^d ed.), Hoboken (N.J.), Wiley, Wiley Series in Probability and Statistics, 2013, XVI-714 p.

15Depuis sa première édition en 1990, Categorical Data Analysis est considéré comme un véritable ouvrage de référence. Alan Agresti, dont l’enseignement a été au cœur de son parcours de statisticien, nous en livre ici la troisième édition qui doit avant tout être appréhendée comme un cours.

16Même si elles ne sont pas clairement identifiées, trois parties composent l’ouvrage. La première (chapitres un à trois) donne l’occasion de se familiariser avec les notations et la structure des chapitres, mais permet surtout à l’auteur d’introduire de manière pédagogique, les principaux outils qui accompagneront le lecteur par la suite, avec dans l’ordre, la présentation des distributions de probabilités les plus utilisées dans l’ouvrage, la structure et la manipulation des tableaux de contingence, le calcul des intervalles de confiance pour différents indicateurs d’association et la mise en œuvre des tests d’indépendance.

17La seconde partie (chapitres quatre à dix), la plus longue de l’ouvrage, est consacrée à la modélisation des variables catégorielles sous l’hypothèse de variables construites à partir d’observations a priori indépendantes. Dans un premier chapitre, l’auteur expose de manière très claire le modèle linéaire généralisé, la régression logistique faisant l’objet des deux chapitres suivants. Par rapport à l’édition précédente, des méthodes alternatives à la régression logistique standard comme les modèles probit ou logistique conditionnel bénéficient d’un développement plus long et ont droit à leur propre chapitre. Jusqu’à présent restreinte aux variables (dépendantes) dichotomiques, la présentation des techniques de régression se referme sur un chapitre dédié au cas polytomique, ordonné ou non. Enfin, bien qu’elle soit moins en vogue aujourd’hui, sûrement à cause des restrictions imposées au nombre de dimensions qu’elle peut introduire, l’analyse des interactions entre variables dans des tableaux de contingences (ou modèles log-linéaires) est exposée dans les deux derniers chapitres de cette partie.

18La troisième partie (chapitres onze à quinze) porte sur la mise en œuvre des analyses lorsque l’hypothèse d’indépendance des observations n’est plus respectée. Analyse des tableaux de contingences et techniques de régression sont bien évidemment de nouveau mobilisées. Dans un premier temps, l’auteur traite du cas où les variables sont construites à partir d’observations appariées, qu’elles proviennent de panels ou d’études de type cas-témoin. La présentation se poursuit avec l’analyse d’observations collectées de manière répétée, champ qui permet d’introduire les modèles markoviens. Deux chapitres sont consacrés aux modèles mixtes ou à effets aléatoires, avec une courte section, dans le premier, dédiée à ceux qui s’appliquent aux observations structurées hiérarchiquement (multiniveau). Enfin, dans un nouveau chapitre, l’auteur propose une brève introduction à l’analyse discriminante et aux arbres de classification.

19L’ouvrage s’achève par deux chapitres qui font le point sur des sujets spécifiques : le premier, très théorique, revient sur les méthodes d’inférence pour échantillons de très petite ou de très grande taille?; le second, à visée historique, décrit de manière vivante en une dizaine de pages l’évolution des méthodes d’analyses des données catégorielles.

20Le niveau élevé de formalisme demande un certain investissement pour en venir à bout, ce que l’auteur avoue de lui-même. Mais le lecteur sera particulièrement satisfait du nombre important d’exemples (près de 200) empruntés à des domaines variés tels que la biostatistique, la science politique, l’économie, la sociologie, le sport, ou encore l’étude de la faune de l’État de Floride. Les critères de séduction des femelles limules ne devraient plus avoir de secret pour celles et ceux qui auront parcouru l’ouvrage dans son ensemble. Plus que dans la deuxième édition, le chercheur ou le statisticien exerçant en sciences sociales y trouvera son compte. Ces exemples, dont certains ne sont utilisés que pour les exercices de fin de chapitres, ont leur propre index en fin d’ouvrage, ce qui facilite la recherche d’un domaine particulier et/ou la comparaison des modélisations pour un même jeu de données ou une même thématique.

21Comme c’est maintenant le cas de presque tous les ouvrages d’analyse statistique à visée pratique, celui-ci s’accompagne d’une mise à disposition, via internet, de ressources permettant de s’exercer aux méthodes ou d’en compléter la lecture (http://www.stat.ufl.edu/~aa/cda/cda.html). Il faut bien reconnaître, et c’était déjà le cas pour l’édition précédente, que le contenu est particulièrement conséquent : 27 bases de données sont directement mises à disposition, d’autres sont accessibles via un lien direct sous certains tableaux de l’ouvrage. Pour la « programmation », les solutions données chapitre par chapitre pour les logiciels Sas^® et R sont quasiment exhaustives. Pour Stata^® et Spss^®, deux documents listent et commentent l’ensemble des commandes utiles avec des renvois sous forme de liens aux aides officielles ou, dans le cas de Stata^®, aux sites des packages utilisateurs (par exemple l’instruction GLLAMM pour l’analyse multiniveau). Accessible directement par le site et salué par Alan Agresti, on conseillera également la lecture d’un guide de près de 300 pages [1] qui résume chaque chapitre de l’ouvrage et dont on espère une prochaine mise à jour pour cette nouvelle édition. Enfin, un nouveau « compagnon » a fait son apparition avec la mise en ligne de 37 vidéos des cours dispensés par Alan Agresti dans la première moitié des années 1990 à l’Université de Floride. Ces « leçons » ne couvrent certes que la première édition de Categorical Data Analysis, mais constitueront pour certains une précieuse aide à la lecture.

22Comme l’ouvrage s’adresse avant tout aux personnes dont les bases en analyse statistique sont solides, ceux qui préfèreraient un contenu moins mathématique pourront se reporter à une version « allégée », Introduction of Categorical Analysis, dont la dernière édition date de 2007.

23Marc Thévenin

Pierre-André Cornillon, Arnaud Guyader, François Husson, Nicolas Jegou, Julie Josse, Maela Kloareg, Eric Matzner-Løber et Laurent Rouviere, Statistiques avec R (3^e éd.), Rennes, Presses universitaires de Rennes, Pratique de la statistique, 2012, 296 p.

24Le logiciel R est un logiciel libre de traitement de données et d’analyse statistique de plus en plus utilisé dans tous les domaines y compris en sciences sociales. Il a l’avantage d’être utilisable gratuitement, aussi bien dans un environnement linux que windows ou mac, et offre un large ensemble de méthodes statistiques développées par une communauté très dynamique. La prise en main de ce logiciel peut se faire à plusieurs niveaux. Cet ouvrage est un manuel pratique et didactique pour apprendre à effectuer des études statistiques avec le logiciel R. Il s’agit d’une troisième édition revue et augmentée. La version précédente, qui a eu un grand succès, a été adaptée en anglais et publiée en 2012 par CRC Press.

25L’ouvrage s’adresse à un large public et offre deux portes d’entrée : une initiation à la programmation sous R et à la compréhension de son fonctionnement (partie I) et une exploitation rapide des méthodes statistiques (partie II). Il accompagne le lecteur dans la prise en main du logiciel à toutes les étapes, du téléchargement à l’interprétation des résultats, de manière efficace et concise au travers d’exemples décrits en détail et reproductibles. Les auteurs sont parvenus à rendre leur livre interactif (« on apprend en faisant »), ce qui évite le côté fastidieux d’un simple guide d’utilisation d’un logiciel. Les choix effectués pour éviter de noyer le lecteur dans trop de détails et lui apporter l’essentiel sont pertinents. L’accent est mis sur les données qualitatives et mixtes, outil précieux pour les études statistiques en sciences sociales. De plus, dans cette nouvelle édition en couleur, la partie consacrée aux graphiques a été complétée par un paragraphe sur la représentation cartographique des données.

26La première partie, consacrée à la prise en main du logiciel, est structurée en quatre chapitres se terminant chacun par des exercices d’approfondissement des notions abordées, et dont la correction figure en annexe. Ces exercices sont bien conçus et d’un grand intérêt pédagogique, car ils correspondent à des besoins pratiques de l’utilisateur. Le premier chapitre est consacré aux concepts de base : installation du logiciel, déroulement d’une session de travail sous linux, windows ou mac, et accès à l’aide en ligne. Ensuite vient la présentation des objets de R et leur manipulation au moyen d’exemples, ainsi que, élément non négligeable, l’explication de la gestion des données manquantes. L’accent est mis sur les différents objets en fonction du type de données traitées : quantitatives, qualitatives ou mixtes. Dans ce chapitre sont également abordées les extensions possibles par l’installation de packages dédiés. Le deuxième chapitre est consacré à la préparation des données au sens large : mise sous format utilisable avec R, prétraitement nécessaire à toute analyse comme le codage de données, traitement des données manquantes, détection de points atypiques. Une place particulière est accordée à la préparation des données qualitatives. Le troisième chapitre aborde les graphiques de manière graduelle et montre les possibilités multiples de représentation des données. Il se termine par une présentation des possibilités qu’offre le package Lattice, avec un paragraphe consacré à l’utilisation de fonds de cartes. Le dernier chapitre de cette première partie propose une initiation à la programmation et explique comment construire ses propres fonctions afin de structurer les différentes étapes de l’analyse des données.

27La seconde partie de l’ouvrage intitulée « les fiches » traite de l’utilisation des principales techniques statistiques sous R au travers d’exemples largement commentés faisant usage de jeux de données accessibles sur un site internet. Cette partie est conçue de manière autonome en fournissant au lecteur un « kit minimal » de connaissances du logiciel lui permettant d’utiliser les différentes méthodes statistiques. Il est fortement recommandé alors d’utiliser le package Rcmdr, qui propose une interface graphique R « Commander », permettant d’effectuer des analyses sous R sans programmation, à l’aide de menus déroulants. Il fournit cependant les lignes de codes correspondantes, de manière à ce que le lecteur puisse, éventuellement, s’initier à la programmation.

28L’éventail des méthodes statistiques présentées est très large : les tests statistiques, la régression, l’analyse de variance et covariance, la classification supervisée, l’analyse exploratoire multivariée et la classification non supervisée. Une vingtaine de techniques sont décrites avec beaucoup de clarté selon le même format : objectif de la méthode, présentation des données de l’exemple avec la question posée, étapes de l’analyse, traitement de l’exemple (les commandes et les sorties sont fournies) et le coin Rcmdr où l’on apprend à utiliser l’interface. Chaque rubrique se termine par des extensions possibles de la méthode et des références. Ce choix de présentation normalisée simplifie la lecture et l’accès aux méthodes.

29Cet ouvrage est bien conçu à tous les niveaux et les annexes sont également utiles, en particulier celle consacrée au package FactoMineR qui permet d’effectuer des analyses exploratoires multivariées « à la française ». Par ses qualités pédagogiques, il encourage le lecteur à effectuer ses analyses statistiques sous R et le guide à travers les fonctionnalités du logiciel et ses extensions. Il peut être recommandé aussi bien pour une initiation que pour un approfondissement des connaissances déjà acquises.

30Marie-Christine Roubaud

Thomas Lumley, Complex Surveys: A Guide to Analysis Using R, New-York, Wiley, Series in Survey Methodology, 2010, XIV-276 p.

31Thomas Lumley nous propose un manuel pratique pour l’analyse de données d’enquête avec le logiciel R et le package Survey. La force de cet ouvrage réside dans l’importance donnée aux exemples pratiques, sous la forme de nombreuses applications portant sur des jeux de données réels du package Survey. De plus, le code R utilisé pour les exemples est donné de façon quasi systématique, facilitant la prise en main.

32L’ouvrage est organisé en dix chapitres. Le premier introduit la notion d’inférence dans un plan de sondage probabiliste, ainsi que l’estimateur de Horvitz-Thompson. L’auteur présente également les nombreuses enquêtes et populations utilisées à titre d’illustration. Il aurait peut-être été préférable pour la lisibilité de limiter le nombre de jeux de données, qui sont repris en fil rouge tout au long du livre (à l’image de la célèbre population MU284 dans Särndal, Swensson et Wretman, 1992). Le chapitre présente aussi quelques manipulations de base du logiciel R, qui seront très utiles au débutant.

33Les deux chapitres suivants donnent les grandes lignes des méthodes d’échantillonnage de base : sondage aléatoire simple, sondage aléatoire simple stratifié et sondage à plusieurs degrés. Le deuxième présente en particulier des méthodes de ré-échantillonnage pour le sondage aléatoire simple stratifié. Le choix de traiter dans ce chapitre des aspects généraux tels que l’estimation de quantiles ou l’estimation sur domaines, plutôt que de leur consacrer un chapitre spécifique, est discutable. Le troisième chapitre aborde de manière intéressante l’échantillonnage à plusieurs degrés, en traitant des problèmes pratiques tels que l’approximation du premier degré de tirage par un tirage avec remise pour simplifier l’estimation de variance, ou le cas de données de panel. En présentant les possibilités de R en matière graphique, le quatrième chapitre constitue une parenthèse dans l’exposé, à la fois originale pour un livre sur les enquêtes et très utile pour obtenir une représentation informative des données.

34Les deux chapitres suivant concernent l’application des méthodes de régression aux données d’enquête. Le chapitre cinq présente le modèle linéaire classique, utilisé soit pour améliorer la précision des estimateurs de totaux via l’estimateur par le ratio ou l’estimateur par la régression, soit de façon plus classique pour étudier le lien entre une variable expliquée et des prédicteurs. Cette dernière approche est généralisée dans le chapitre six au cas d’une variable expliquée qualitative, avec les modèles de régression logistique, de régression ordinale et log-linéaire. Les autres méthodes de redressement d’estimateurs sont traitées dans le chapitre sept, qui inclut notamment la post-stratification, l’estimateur par la régression généralisée et le calage. Ce chapitre propose également une réflexion intéressante sur l’utilisation d’information auxiliaire dans le célèbre exemple des éléphants de Basu.

35Les derniers chapitres constituent certainement la principale originalité de l’ouvrage. Le chapitre huit aborde le sujet des enquêtes épidémiologiques, traitant le cas des enquêtes cas-contrôle et cas-cohorte, ainsi que l’analyse des données de survie. Ce chapitre présente également des développements méthodologiques récents, notamment l’utilisation d’information auxiliaire pour améliorer la qualité de l’inférence dans le cas d’une enquête en deux phases. Le chapitre neuf aborde le problème des données manquantes, et présente les méthodes de correction par modélisation des probabilités de réponse, ou par imputation. On pourra regretter que les méthodes d’imputation simples ne soient que rapidement évoquées, et que les problèmes liés à l’imputation multiple dans les enquêtes ne soient pas discutés (Kim et al., 2006). La notion importante de double robustesse est discutée dans ce chapitre, ainsi que dans le chapitre dix portant plus spécifiquement sur l’inférence causale.

36Globalement, l’ouvrage fournit une bonne introduction aux problématiques associées aux enquêtes complexes, depuis la sélection des échantillons jusqu’aux problèmes d’inférence. Il devrait se révéler précieux pour les utilisateurs de données d’enquête.

Références

37Kim J. K., Brick J. M., Fuller W. A., Kalton G., 2006, « On the bias of the multiple-imputation variance estimator in survey sampling », Journal of the Royal Statistical Society, B68, p. 509-521.

38Särndal C.-E., Swensson B., Wretman J. H., 1992, Model Assisted Survey Sampling, New-York, Springer-Verlag.

39Pascal Chauvet

Bruno Falissard, Analysis of Questionnaire Data with R, London-New York, CRC Press, 2012, IX-269 p.

40Cet ouvrage traite de l’analyse statistique de données issues de la passation d’un questionnaire. Tout au long de ses neuf chapitres, l’auteur aborde différentes méthodes statistiques, en alternant fondements statistiques et commandes qui permettent de réaliser les analyses dans le cadre du logiciel R. Cette alternance rend la lecture du livre très fluide, d’autant que l’auteur prend soin d’associer clairement les explications dans le texte aux commandes et à leurs résultats. Cela permet, comme dans ses précédents ouvrages, une appréhension concrète des concepts statistiques ainsi qu’une connaissance des commandes de R pour réaliser les analyses et interpréter plus facilement les résultats, qui peuvent parfois être jugés plus difficiles à lire que ceux produits par les logiciels généralistes comme Stata^®, Sas^® ou Spss^® (dont l’inconvénient est néanmoins d’être payants).

41L’ensemble des analyses présentées provient d’une étude sur la santé mentale en prison, réalisée en 2003-2004. La diversité des données issues de cette enquête permet à l’auteur de développer un grand nombre de méthodes statistiques, bien référencées. Le chapitre d’introduction, très court, présente l’étude de 2003-2004, tout en fournissant les premiers éléments pour ouvrir un fichier de données sous R. Vient ensuite un chapitre relativement classique consacré aux analyses descriptives d’une variable continue (moyenne, médiane, étendue, etc.) et aux représentations graphiques (histogramme, boîte à moustaches, camembert, etc.). Le chapitre suivant décrit les relations entre variables, en commençant par la présentation d’un risque relatif et d’un rapport de cotes. L’utilisation du rapport de cotes est peu critiquée, tandis que l’usage du terme « risque » et « risque relatif » n’est pas discuté, ce qui est dommageable surtout dans le cadre d’une enquête transversale où la prise de risque est souvent difficile à documenter (par rapport au cas d’une cohorte) et que l’on souhaite mesurer plutôt des facteurs associés et des rapports de prévalences. En revanche, la discussion concernant la corrélation est très intéressante car elle répond aux questions sur la pertinence de corréler différents types de variables, en présence parfois de données manquantes. La représentation sphérique des matrices de corrélation et l’analyse ciblée en composantes principales offrent des outils visuels forts utiles pour l’exploration des corrélations. Ces outils sont sans doute sous-exploités dans le domaine de l’épidémiologie, et les sections du livre qui les analysent pourraient permettre de combler cette lacune.

42Le chapitre quatre traite de l’estimation des intervalles de confiance d’une moyenne, d’un risque relatif et d’un rapport de cotes. À chaque fois, l’intervalle est estimé à partir de l’échantillon brut ou en tenant compte du plan de sondage, ce qui permet de mesurer l’impact de ce dernier sur les estimations. Les tests d’hypothèses sont ensuite introduits pour comparer notamment deux pourcentages, deux moyennes ou un coefficient de corrélation par rapport à la valeur nulle. Ici encore le plan de sondage est introduit ou non dans les calculs. L’auteur décrit également le calcul de la taille d’un échantillon, notamment en prenant en compte l’effet du plan de sondage. Dans le chapitre suivant, l’auteur décrit les principaux modèles (régression linéaire, régression logistique, régression de Poisson pour données de comptage et ses extensions) et présente les commandes permettant de prendre en compte le plan de sondage.

43Le chapitre six aborde plusieurs sujets qui pourraient faire à eux-seuls l’objet d’un ouvrage à part entière (codage, construction d’un modèle, traitement de données manquantes). Il commence par le codage des variables continues ou catégorielles et la construction d’un modèle multivarié, deux sujets qui sont en constante évolution et pour lesquels les pratiques des utilisateurs sont très hétérogènes. La première section présente la manière de prendre en compte une variable explicative continue dans un modèle de régression additif généralisé (GAM) par la méthode des splines. Cette section montre clairement l’utilité de modéliser l’association d’une variable continue à la variable réponse plutôt que d’introduire la variable continue telle quelle. Étonnamment, l’auteur ne traite pas des méthodes utilisant des polynômes fractionnaires développées depuis une quinzaine d’années. Ces méthodes offrent une alternative intéressante aux splines, sont faciles à mettre en œuvre sous R et englobent la méthode de polynôme proposée en page 119. La prise en compte du plan de sondage n’est pas traitée non plus, sans doute en raison de la difficulté à considérer directement la totalité du plan pour l’analyse. On aborde ensuite un sujet qui ne rencontre pas de consensus actuellement, celui de la construction d’un modèle multivarié et du choix des variables à introduire dans le modèle. En quelques pages, cette question difficile est traitée en posant les points essentiels, notamment en insistant sur le fait que ce qui peut être valable statistiquement peut ne pas l’être du point de vue de l’utilisateur, et réciproquement. Les deux sections suivantes décrivent la prise en compte des interactions et l’estimation de la fraction attribuable. Enfin, la sixième section aborde le problème des données manquantes en distinguant l’analyse cas-complet et l’imputation, notamment l’imputation multiple. Là encore l’analyse ciblée en composantes principales est utilisée pour déterminer quelles sont les variables les plus fortement associées aux données manquantes d’une variable. Le chapitre se termine par une discussion de la méthode du bootstrap et de la modélisation multi-niveaux.

44Le chapitre sept est consacré aux principes de validation d’un score composite, de la mesure de l’unidimensionalité d’un ensemble d’items… La consistance interne par l’intermédiaire du coefficient alpha de Cronbach et la variabilité inter-juges, notamment par le calcul du coefficient kappa, sont également présentées et discutées. Le chapitre suivant introduit la modélisation en équations structurelles (SEM) qui permet d’expliquer une variable réponse par des variables explicatives, pouvant elles-mêmes être expliquées par d’autres variables. Plusieurs illustrations sont proposées permettant de faire un lien entre une représentation graphique des relations entre variables et la commande et les sorties R. Enfin, le neuvième et dernier chapitre introduit une série de commandes R permettant la manipulation de fichiers de données (importation, exportation), celle de variables et la vérification d’erreurs.

45En résumé, cet ouvrage couvre un large panorama de méthodes (dont certaines ne font pas consensus) et permet de répondre à des objectifs variés à partir de données d’enquêtes. Il est riche de concepts et d’illustrations. Les commandes R présentées dans l’ouvrage peuvent être facilement reproduites dans leur totalité par le lecteur puisqu’elles sont disponibles sur internet. Cet ouvrage est donc à recommander pour toutes les personnes souhaitant réaliser des analyses statistiques de manière autonome sans devoir acheter un logiciel statistique dédié.

46Yann Le Strat

Jeffrey D. Long, Longitudinal Data Analysis for the Behavioral Sciences Using R, Thousand Oaks, California, Sage, 2012, XXII-542 p.

47L’ouvrage a pour but de présenter l’analyse de données longitudinales dans le cadre d’une application à l’aide du logiciel R. Il se compose de treize chapitres que l’on pourrait regrouper en trois parties : les données, la méthode, les extensions possibles. L’ouvrage est à destination des praticiens, et sa construction, didactique et pédagogique, s’appuie sur la longue expérience d’enseignement de l’auteur. L’objectif n’est pas d’offrir un cadre théorique exhaustif mais bien une aide à la réalisation des analyses?; les notions théoriques sont donc présentées dans le cadre de l’application. Pour la même raison, un seul jeu de données sert à l’ensemble des analyses réalisées. Il est présenté dès le début, ainsi que les problématiques propres à l’analyse envisagée. À la différence de nombreux titres existants, le logiciel est parfaitement intégré à l’ouvrage. Chaque chapitre fait l’objet d’une mise en pratique du logiciel pour appuyer le propos en présentant les codes et les résultats afin de permettre une réutilisation immédiate.

48L’auteur a fait le choix de s’adresser à tout type de public, y compris aux novices dans l’utilisation du logiciel R. Il y a donc un premier chapitre consacré entièrement à la prise en main du logiciel, qui contient un bon résumé des connaissances nécessaires pour débuter avec R. La présentation des lignes de code suivies des résultats permet une première approche pas à pas. Un deuxième chapitre est consacré aux graphiques. L’auteur a fait ici le choix d’utiliser un ensemble de commandes s’ajoutant à celles de R : le package « ggplot2 ». Ce choix paraît surprenant car il impose au nouvel utilisateur de s’initier à R puis à « ggplot2 » qui, bien qu’intégré à R, ne suit pas la même logique de construction ni de programmation. C’est toutefois une alternative intéressante car l’ensemble des fonctionnalités de « ggplot2 » étend largement les capacités graphiques du logiciel initial?; ce chapitre pourrait donc être également profitable à celui qui a déjà une pratique de R.

49Rappelons qu’un seul jeu de données est employé pour l’ensemble des applications informatiques. Elles sont présentées dans l’introduction et sont également disponibles, avec les scripts des programmes R utilisés, sur le site de l’ouvrage (www.sagepub.com/long/). Un chapitre est consacré à l’exploration des données, au recodage ainsi qu’à la présentation des données longitudinales. Un autre est dédié à l’exploration graphique de ce type de données. Ces étapes sont absolument nécessaires avant toute modélisation et font, là encore, l’objet d’une mise en pratique avec le logiciel. Au cours de ces premières étapes d’exploration, une place importante est réservée au cas des données manquantes.

50Brièvement introduite au début, la présentation complète du modèle linéaire mixte, méthode statistique principale choisie par l’auteur, n’arrive qu’au chapitre cinq. En fait, c’est plutôt sur l’utilisation d’un sous-modèle que l’auteur s’attarde : le modèle multiniveau à deux niveaux. Ainsi, on se place souvent dans le cas d’un modèle hiérarchique avec le niveau 2 qui serait l’individu, et le niveau 1 inclus dans le niveau 2 et constitué de toutes les mesures effectuées sur l’individu à des moments successifs. C’est un modèle que l’on trouve dans les analyses de données de panels (Cameron et Trivedi, 2010) ou dans les modèles de croissance (Bressoux, 2008). Une fois le modèle posé, il faut l’estimer. C’est l’objet du chapitre six portant sur la maximisation de la vraisemblance.

51La question qui se pose ensuite est le choix du modèle. C’est probablement la partie la plus intéressante de l’ouvrage car la moins classique. Le chapitre sept traite des techniques d’inférence multimodèles (Burnham et Anderson, 2002). C’est une technique basée sur des critères d’information qui permet, par exemple, de comparer des modèles qui ne sont pas emboîtés. Elles sont mises en opposition avec les techniques de choix de modèle pas à pas présentées au chapitre suivant. L’approche du choix de modèle est très complète puisque les deux chapitres analysent aussi l’apport des techniques de bootstrap.

52Cette approche est complétée par une présentation de l’utilisation dans le modèle de variables explicatives dépendant du temps. Une autre difficulté du modèle est explorée dans le chapitre dix. En effet, le modèle mixte est une extension du modèle linéaire qui permet de tenir compte d’effets aléatoires (les variables explicatives peuvent être des variables aléatoires)?; on aborde donc ici la question du choix de ce qui va être aléatoire dans le modèle. Enfin, le cas des variables explicatives qualitatives est succinctement évoqué, de même que les possibilités de transformation des variables prédictives utilisées dans le modèle ou les modèles avec interactions. L’ouvrage se termine sur trois extensions possibles, la liste n’étant pas exhaustive : le modèle dynamique, le modèle à plusieurs variables réponses et les modèles de plus de deux niveaux.

53En conclusion, à côté de nombreux aspects positifs qui viennent d’être évoqués, cet ouvrage présente néanmoins quelques limites. Sur l’utilisation de R, il aurait pu être fait mention de quelques tutoriaux disponibles sur internet, ainsi que de l’existence de l’interface graphique R-Commander (Fox, 2005) qui permet aux utilisateurs débutants en R de passer plus facilement d’un logiciel ne présentant que des menus déroulants (type Spss^®) à un logiciel « en lignes de commande » tel que R. Par ailleurs, pour un ouvrage à destination des praticiens, le chapitre sur la maximisation de la vraisemblance aurait pu faire l’objet d’une annexe pour ne conserver dans le corps du texte que ce qui concerne les valeurs manquantes. Enfin, le cadre choisi pour développer les aspects théoriques n’est pas le cadre généralement employé. Ainsi, l’ouvrage de Judith Singer et John Willett (2003) n’est cité à aucun moment. Ce choix donne lieu à un chapitre de modélisation non linéaire qui regroupe les méthodes de modélisation par morceaux et les méthodes de lissage mais pas la généralisation du modèle aux variables qualitatives. De façon plus anecdotique, si l’ouvrage a vocation d’aider les praticiens dans la mise en œuvre d’une méthode sous un logiciel libre, son prix élevé n’est pas en adéquation avec le type de public visé.

Références

54Bressoux P., 2008, Modélisation statistique appliquée aux sciences sociales, Bruxelles, De Boeck.

55Burnham K., Anderson D., 2002, Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, New York, Springer-Verlag.

56Cameron A. C., Trivedi P. K., 2010, Microeconometrics Using Stata (Revised Edition), College Station, USA, Stata Press.

57Fox J., 2005, « The R Commander: A basic-statistics graphical user interface to R », Journal of Statistical Software, 14(9).

58Singer J., Willett J., 2003, Applied Longitudinal Data Analysis: Modeling Change and Event Occurrence, USA, Oxford University Press.

59Elisabeth Morand

Martine Cocaud et Jacques Cellier, Le traitement des données en histoire et en sciences sociales. Méthodes et outils, Rennes, Presses universitaires de Rennes, collection Didact Méthodes, 2012, 554 p.

60Après avoir publié il y a plus d’une dizaine d’années un ouvrage bien utile aux historiens (Traiter des données historiques. Méthodes statistiques, techniques informatiques, Rennes, PUR, 2000), M. Cocaud et J. Cellier recommencent aujourd’hui en présentant des méthodes certes plus complexes, mais que l’évolution des outils informatiques met désormais à disposition de tous. La lecture de ce nouvel ouvrage nécessite d’avoir sous le coude le précédent ouvrage – que les auteurs désignent à plusieurs reprises par le terme de « tome 1 ». À l’époque, les auteurs expliquaient concrètement aux historiens comment créer une base de données à partir de sources historiques et donnaient les clefs pour les exploiter, essentiellement par la statistique descriptive. Les démonstrations se fondaient alors sur les logiciels Microsoft Access^® et Microsoft Excel^®. La réception de ce premier ouvrage et l’évolution récente des méthodologies d’analyse des données ont poussé M. Cocaud et J. Cellier à concentrer cette fois-ci leurs efforts sur des méthodes de traitement approfondies, utiles aux historiens et plus généralement à tout chercheur en sciences sociales. Pour chacune des méthodes sélectionnées, les auteurs choisissent et présentent un ou plusieurs outils informatiques adaptés, en général issus du monde libre et accessible à chacun. Tout leur mérite est alors de montrer comment on peut mobiliser ces outils complexes et puissants avec une déconcertante facilité. Tant et si bien qu’après avoir parcouru le livre, la mise en œuvre des méthodes n’est plus un écueil pour le lecteur, qui peut alors se consacrer à la réflexion sur leur utilité et sur leurs conditions d’emploi dans sa propre recherche.

61La première partie du livre est consacrée aux bases de données, qui constituent la matière première des développements suivants. Essentiellement technique, elle se concentre sur la manipulation des bases de données plutôt que sur leur conception, sachant que ce dernier aspect a été particulièrement traité dans l’ouvrage précédent. À l’époque, la démonstration des auteurs se fondait sur le logiciel Microsoft Access, et ils ont choisi aujourd’hui de centrer leur propos sur MySQL, logiciel libre et populaire dont l’apprentissage garantit aux utilisateurs une certaine indépendance et une adaptation à tout autre outil de système de gestion de base de données (SGBD). Le fait que MySQL soit développé en environnement serveur impose l’apprentissage des outils d’administration EasyPHP et PHPMyAdmin.

62Ce projet est bien servi par la présentation claire et synthétique du langage d’interrogation SQL, sa mise en œuvre sur des exemples simples permettant de comprendre rapidement les implications et les effets des différentes clauses que l’on peut tester sur le site web associé à la publication. Une attention particulière est portée aux possibilités d’importation et exportation de données, tant au niveau des technologies (ODBC) que des formats de données (parmi lesquels le format tabulaire CSV permettra la communication avec la plupart des outils présentés par la suite).

63Dans une seconde partie, les auteurs présentent les méthodes d’analyse des données multidimensionnelles. Ils proposent au lecteur un environnement de travail performant en choisissant de faire leurs démonstrations avec le logiciel libre et multiplateforme de statistiques R, qui s’impose de plus en plus au sein de la communauté scientifique. Les pages consacrées à l’analyse des données sont donc matière à une petite introduction à R et à son interface graphique Rcmdr. L’apprentissage des techniques de classification ascendante hiérarchique ou de partitionnement fait appel aux fonctions agnes () et pam () de la bibliothèque cluster. L’Analyse en composantes principales (ACP) et l’Analyse des correspondances multiples (ACM…) sont présentées à partir du package FactoMineR et de son complément spécialisé pour les représentations graphiques DynGraph. La mise en œuvre des régressions logistiques est abordée via la fonction glm (). L’ensemble est constitué de techniques éprouvées et anciennes que les auteurs ont l’habileté de présenter didactiquement à un public non spécialiste. La prise en compte de la dimension temporelle est abordée dans la partie III consacrée aux « analyses longitudinales ». Les auteurs présentent selon les mêmes principes les package TraMineR, consacré à l’Analyse des Séquences, et R Survival dédié à l’Event History Analysis.

64Ensuite, un bon quart de l’ouvrage s’efforce d’offrir au « voyageur sans boussole » des pistes pour explorer « l’arboretum tropical » que constitue l’analyse des réseaux sociaux (partie IV). De fait, les grandes notions de ce domaine de recherche sont exposées avec une certaine efficacité : la théorie des graphes, la cohésion, la question de la centralité des acteurs ou celle de la recherche d’équivalence pour repérer rôles et positions sociales dans une structure relationnelle. Ces notions sont présentées à l’aide de deux logiciels gratuits régulièrement utilisés par la communauté des analystes de réseaux : les qualités de Visone du point de vue graphique sont combinées à celle de Pajek, qui, bien que d’accès plus « déroutant », est reconnu depuis des années pour ses fonctions de calcul puissantes et ses connexions avec le logiciel R.

65La dernière partie, consacrée à la cartographie, est plus succincte. L’utilisation de QGIS, logiciel système d’information géographique (SIG) libre, permet aux auteurs d’aborder les questions de géoréférenciation et de vectorisation des cartes et plans, ainsi que la représentation et l’analyse des données dans cet environnement. Les auteurs entendent « concilier théorie et pratique » en proposant une « boîte à outils mais pas boîte noire » (p. 9). En l’occurrence, la force principale de l’ouvrage réside dans son approche didactique et pédagogique issue de l’expérience d’enseignement et d’une longue collaboration entre un mathématicien et une historienne.

66Chaque méthode est décortiquée et appréhendée par le biais des outils actuels permettant de la mettre en œuvre. Les auteurs s’attardent sur l’installation des logiciels et la présentation de leur environnement, et proposent des introductions méthodologiques concises et accessibles. Des « enclos mathématiques » permettent aux utilisateurs un peu plus avertis d’accéder aux concepts mathématiques à la base des méthodes. Chaque démonstration se fonde sur des exemples triviaux et des exemples issus des travaux des auteurs que l’on peut retrouver sur le site web associé à l’ouvrage. Les méthodes sont présentées pas à pas, avec force copies d’écrans des boîtes de dialogues des logiciels et des différents états successifs des jeux de données. Pour chacune d’elles, les formats de données en entrée, les paramètres et leurs réglages sont clairement explicités, de même que sont présentés et commentés les résultats sous leurs différentes formes, leur interprétation et les mesures de leur qualité, les cas épineux et ceux qui ne marchent pas, les conditions générales d’application… Ajoutons à cela les commentaires, conseils et avertissements, qui lèvent bien des malentendus et facilitent la compréhension.

67Un autre intérêt de l’ouvrage est d’esquisser au fil des pages, par petites touches, une approche pragmatique des outils, bien loin d’un fétichisme béat : « En toutes circonstances, il convient de ne pas se laisser éblouir par la sophistication de l’outil, sophistication qui réside dans une mise en œuvre aisée d’algorithmes complexes, lesquels finissent toujours par produire des résultats » (p. 448). L’utilisateur est maintes fois sensibilisé sur son propre rôle dans le processus de recherche : il lui incombe « la responsabilité de savoir si les résultats obtenus sont porteurs ou non de signification » (p. 163), ou de « traiter la question du pourquoi ».

68La longue liste des logiciels proposés, résultat d’un premier filtre réfléchi et assumé par les auteurs, peut sembler déroutante, mais correspond de fait à la réalité de l’offre actuelle. Les choix sont en général pertinents. C’est le cas pour MySQL ou pour l’investissement dans un logiciel comme R. Les garanties scientifiques de ce dernier et ses perspectives d’évolution en font un outil capable de réunir à l’avenir bon nombre des méthodes présentées dans le livre et de celles qui n’y sont pas. Bien évidemment, cet ouvrage n’épuise pas toutes les techniques offertes aux chercheurs en SHS, mais on ne peut pas en faire grief aux auteurs. L’analyse textuelle absente aujourd’hui pourrait ainsi être intégrée à l’avenir via l’interface de R pour les Analyses multidimensionnelles de textes et de questionnaires (Iramuteq) actuellement en développement, à condition qu’une documentation fiable l’accompagne. De même, on peut imaginer qu’une évolution des packages R consacrés à l’analyse des réseaux sociaux permette aux utilisateurs non spécialistes d’aborder cette question dans l’environnement R. Mais dans ce domaine, d’autres outils sont disponibles (Géphi, NodeXL), et Pajek reste une solution tout à fait valable. La mise en ligne de la version 3 de ce logiciel depuis la publication du livre rappelle cruellement les limites de ce type ouvrage, élaboré en étroit rapport avec des outils qui évoluent régulièrement. Cette nouvelle version de Pajek a non seulement vu l’ajout tardif d’une fonction importante présente dans d’autres logiciels (le calcul de communautés), mais a surtout été marquée par une refonte des menus qui peut dérouter les utilisateurs. Pour y remédier, les auteurs ont eu l’heureuse initiative d’intégrer des explications concernant ces changements dans un document annexe publié sur le site dédié à l’ouvrage.

69La partie « cartographie » ne semble pas avoir le même statut que les autres méthodes présentées dans l’ouvrage. Les outils de traitement de l’espace ont toute leur place dans le projet général du livre, mais ils sont à un autre stade de développement. Les auteurs hésitent entre cartographie automatique et systèmes d’information géographique (SIG). Un outil du type PhilCarto peut rendre des services et être très efficace. Il dispose de méthodes de discrétisation satisfaisantes et d’un jeu de fonds de carte. Le recours aux SIG mobilise beaucoup plus de connaissances. Le choix du logiciel QGIS est néanmoins pertinent, surtout si l’on veut travailler avec la géoréférenciation, mais reste un peu démesuré par rapport au projet, sauf à faire la connexion avec un SGBD.

70Avant de conclure, on pourra simplement déplorer la mise en page sommaire de l’ouvrage, qui altère la fluidité de la lecture, et surtout le caractère succinct de la bibliographie, alors même que de nombreuses références utiles citées tout au long du texte auraient pu être réunies à la fin.

71L’ouvrage de J. Cellier et M. Cocaud est précieux car il participe à la démocratisation du travail sur les données dans une période où leur production n’a jamais été aussi abondante. Il offre une vision panoramique et démystifiée d’un certain nombre d’outils et méthodes de traitement de données actuellement mobilisables en sciences humaines et sociales. Enfin, il fournit aux lecteurs dont la formation en mathématique et statistique est limitée quelques clefs pour mettre en œuvre ces méthodes et surtout les comprendre.

72Pascal Cristofoli

Noël Yvonnick, Psychologie statistique avec R, Paris, Springer Verlag France, collection Pratique R, 2013, 325 p.

73Cet ouvrage est tout particulièrement destiné aux enseignants et étudiants de psychologie désireux d’acquérir et surtout d’approfondir leurs connaissances en statistique. Toutes les notions sont accompagnées d’exercices-types ainsi que d’applications sous le logiciel R, sous forme d’atelier. Deux librairies pour R (AtelierR et R2STATS) ainsi qu’une interface graphique en GTK sont fournies avec l’ouvrage. L’intégration graphique est un point non négligeable car peu d’étudiants en psychologie sont formés à la syntaxe de R.

74Après un rappel de statistiques descriptives, l’auteur fait une présentation des bases d’algèbre et de probabilité, nécessaires à une bonne compréhension de la statistique inférentielle. Puis il développe la notion de modèle et présente ensuite en détail les modèles binomiaux, multinomiaux et gaussiens. Dans le chapitre sur les espérances et les moments, l’auteur illustre une application très usitée de l’analyse de la covariance en psychologie : les équations structurelles. Très largement utilisée en psychologie, cette méthode est néanmoins rarement comprise. Les explications données par l’auteur devraient contribuer à résoudre ce problème.

75Toutes les méthodes sont introduites à partir d’expériences menées en psychologie, chaque méthode étant traitée suivant deux approches : dans un premier temps, par la démarche traditionnelle fishérienne de la p-valeur, et dans un second temps dans une perspective bayésienne, moins connue. Cette manière de procéder est originale car bien que de nombreux auteurs aient souligné l’intérêt de la démarche bayésienne pour traiter des problèmes rencontrés en psychologie (Wagenmaker et al., 2010, 2011?; Krusche, 2010?; Rouder et al., 2009), peu de manuels récents y font référence et encore moins en français. De plus, une boîte à outils bayésienne complète est fournie dans l’ouvrage (Atelier R).

76Un accent particulier a été mis sur les méthodes alternatives au test du Khi-deux permettant d’analyser les données catégorielles et les tables de contingence souvent présentes en psychologie. Cette approche permet de tester des hypothèses précises sur la structure de dépendance et pas uniquement de rejeter l’hypothèse d’indépendance entre variables. L’ANOVA est présentée comme une comparaison de modèles emboîtés, et l’auteur propose des outils pour vérifier les conditions d’application de cette méthode, ce qui est indispensable dans la pratique.

77Bien que destiné à un public de sciences humaines, cet ouvrage pourra intéresser tout public non spécialiste désireux de s’initier et de comprendre les méthodes statistiques. Il intéressera à n’en point douter également les statisticiens par les nombreux exemples issus de problèmes et de données trouvés dans la pratique de la recherche.

Références

78Kruschke J. K., 2010, « What to believe: Bayesian methods for data analysis », Trends in Cognitive Science, 14, p. 293-300.

79Rouder J. N., Speckman P. L., Dongchu S., Morey R. D., 2009, « Bayesian t tests for accepting and rejecting the null hypothesis », Psychonomic Bulletin and Review, 6, p. 225-237.

80Wagenmakers E.-J., Lodewyckx T., Kuriyal H., Grasman R., 2010, « Bayesian hypothesis testing for psychologists: A tutorial on the Savage-Dickey method », Cognitive psychology, 60, p. 158-189.

81Wagenmakers E.-J., Wetzels R., Borsboom D., van der Maas H. L. J., 2011, « Why psychologists must change the way they analyze their data: The case of psi », Journal of Personality and Social Psychology, 100, p. 426-432.

82Nathalie Cheze

Cet article est accessible en accès ouvert dans le cadre de notre modèle Souscrire Pour Ouvrir.

Date de mise en ligne : 01/06/2013

https://doi.org/10.3917/popu.1301.0179

Compte personnel

Bibliographie Critique

Notes

Citer cet article

Notes

Logiciels statistiques appliqués aux sciences sociales

Jichuan Wang, Haiyi Xie et James H. Fischer, Multilevel Models: Applications Using SAS^®, Berlin-Boston, De Gruyter / Beijing, Higher Education Press, 2012, IX-264 p.

Références

Alan Agresti, Categorical Data Analysis (3^d ed.), Hoboken (N.J.), Wiley, Wiley Series in Probability and Statistics, 2013, XVI-714 p.

Pierre-André Cornillon, Arnaud Guyader, François Husson, Nicolas Jegou, Julie Josse, Maela Kloareg, Eric Matzner-Løber et Laurent Rouviere, Statistiques avec R (3^e éd.), Rennes, Presses universitaires de Rennes, Pratique de la statistique, 2012, 296 p.

Thomas Lumley, Complex Surveys: A Guide to Analysis Using R, New-York, Wiley, Series in Survey Methodology, 2010, XIV-276 p.

Références

Bruno Falissard, Analysis of Questionnaire Data with R, London-New York, CRC Press, 2012, IX-269 p.

Jeffrey D. Long, Longitudinal Data Analysis for the Behavioral Sciences Using R, Thousand Oaks, California, Sage, 2012, XXII-542 p.

Références

Martine Cocaud et Jacques Cellier, Le traitement des données en histoire et en sciences sociales. Méthodes et outils, Rennes, Presses universitaires de Rennes, collection Didact Méthodes, 2012, 554 p.

Noël Yvonnick, Psychologie statistique avec R, Paris, Springer Verlag France, collection Pratique R, 2013, 325 p.

Références

Accès institutions

Toutes les institutions

Bibliographie Critique

Citer cet article

Notes

Citer cet article

Notes

Logiciels statistiques appliqués aux sciences sociales

Jichuan Wang, Haiyi Xie et James H. Fischer, Multilevel Models: Applications Using SAS®, Berlin-Boston, De Gruyter / Beijing, Higher Education Press, 2012, IX-264 p.

Références

Alan Agresti, Categorical Data Analysis (3d ed.), Hoboken (N.J.), Wiley, Wiley Series in Probability and Statistics, 2013, XVI-714 p.

Pierre-André Cornillon, Arnaud Guyader, François Husson, Nicolas Jegou, Julie Josse, Maela Kloareg, Eric Matzner-Løber et Laurent Rouviere, Statistiques avec R (3e éd.), Rennes, Presses universitaires de Rennes, Pratique de la statistique, 2012, 296 p.

Thomas Lumley, Complex Surveys: A Guide to Analysis Using R, New-York, Wiley, Series in Survey Methodology, 2010, XIV-276 p.

Références

Bruno Falissard, Analysis of Questionnaire Data with R, London-New York, CRC Press, 2012, IX-269 p.

Jeffrey D. Long, Longitudinal Data Analysis for the Behavioral Sciences Using R, Thousand Oaks, California, Sage, 2012, XXII-542 p.

Références

Martine Cocaud et Jacques Cellier, Le traitement des données en histoire et en sciences sociales. Méthodes et outils, Rennes, Presses universitaires de Rennes, collection Didact Méthodes, 2012, 554 p.

Noël Yvonnick, Psychologie statistique avec R, Paris, Springer Verlag France, collection Pratique R, 2013, 325 p.

Références

Accès institutions

Toutes les institutions

Jichuan Wang, Haiyi Xie et James H. Fischer, Multilevel Models: Applications Using SAS^®, Berlin-Boston, De Gruyter / Beijing, Higher Education Press, 2012, IX-264 p.

Alan Agresti, Categorical Data Analysis (3^d ed.), Hoboken (N.J.), Wiley, Wiley Series in Probability and Statistics, 2013, XVI-714 p.

Pierre-André Cornillon, Arnaud Guyader, François Husson, Nicolas Jegou, Julie Josse, Maela Kloareg, Eric Matzner-Løber et Laurent Rouviere, Statistiques avec R (3^e éd.), Rennes, Presses universitaires de Rennes, Pratique de la statistique, 2012, 296 p.