Staps 2007/3 n° 77

Couverture de STA_077

Article de revue

Que signifie la significativité statistique ? L'apport de la taille d'effet et de la puissance statistique

Pages 49 à 61

Notes

  • [1]
    8.1 est l’écart-type commun aux deux groupes que l’on obtient comme la racine carrée de [(n1 - 1) * SD2 1 + (n2 - 1) * SD2 2] / (n1 + n2 - 2) avec SD1 et SD2 écarts-types observés des deux groupes de tailles n1 et n2.

1 – Introduction

1 Dans les domaines de la psychologie, des sciences de l’éducation ou de la médecine, les experts, les éditeurs et les notes aux auteurs demandent de plus en plus fréquemment de présenter les résultats à l’aide des notions de taille d’effet (les termes d’amplitude de l’effet ou d’intensité de l’effet sont également utilisés) rétrospective et éventuellement d’analyse de puissance ; ces deux notions statistiques sont l’objet de cet article. Il convient, à ce sujet, de se référer au très influent manuel de l’American Psychological Association (Wilkinson et al., 1999) ainsi qu’à l’ouvrage de Kline (2004), édité par la même association, ou encore à de nombreux journaux dont le Journal of Consulting and Clinical Psychology, le Journal of Learning Disabilities ou Research in the School. Les sciences du sport semblent, elles aussi, se diriger vers des normes similaires de présentation comme en témoignent par exemple les revues scientifiques Research Quarterly for Exercise and Sport et Medecine and Science for Sport and Exercise.

2 Nombreux sont les articles méthodologiques qui en ont expliqué l’intérêt. Dans les revues de psychologie en particulier, Cohen a entrepris un travail systématique de pédagogie depuis 1962, en ce qui concerne la puissance (lire à ce titre Cohen, 1990, 1992, 1994) et a en outre écrit l’ouvrage de référence sur le sujet (Cohen, 1988). Thompson (1999, 2002, 2006) ; Vacha-Haase (2001) et Vacha-Haase et Thompson (2004) ont fait de même en ce qui concerne la taille d’effet. Chaque discipline (médecine, biologie, marketing, etc.) a ainsi connu son lot de publications destinées à diffuser ces deux notions (par exemple, Fan, 2001 ; Henson & Smith, 2000 ; Huberty, 2002 ; Kirk, 1996 ; Marvier, 2001 ; Muller & Benignus, 1992 ; Olejnik & Algina, 2000 ; Thomas, 1997). Il en va de même pour les sciences du sport avec, entre autres publications, Christensen et Christensen (1977), Eston et Rowlands (2000), Greenfield, Kuhn et Wojtys (1997), Parks, Speed et Andersen (1998), Shewokis et Costa (1999), Sutlive et Ulrich (1998), Thomas, Lochbaum et Landers (1997) et Winter, Eston et Lamb (2001).

3 La lecture de ces articles permet de formuler trois constats : (1) les analyses de puissance permettent de mener a priori une réflexion sur la planification des études et montrent a posteriori que parfois les études publiées reposent sur de trop petits effectifs. (2) Les interprétations des résultats basées uniquement sur la significativité statistique des tests (la probabilité critique ou p-value) font perdre de vue la significativité scientifique de ces résultats, c’est-à-dire la dimension et l’importance concrète des effets observés, qui peuvent en revanche être appréhendées par la notion de taille d’effet rétrospective. (3) Malgré quarante ans de publications visant à populariser ces deux notions, la pratique statistique courante dans la plupart des disciplines est bien loin de les avoir intégrées. Mais alors, si ces deux notions sont si intéressantes, comment expliquer ce troisième constat, indiscutable dans le domaine qui nous intéresse, celui des sciences du sport ?

4 L’enseignement de la statistique en France n’est pas la priorité dans les UFR STAPS (Unités de Formation et de Recherche en Sciences et Techniques des Activités Physiques et Sportives). De plus, il y est, à notre connaissance, un peu traditionnel, en se contentant souvent de refléter le contenu d’ouvrages d’introduction à la statistique publiés en langue française. Or, dans ceux-ci, soit ces deux thèmes ne sont tout simplement pas traités, soit ils sont vaguement évoqués en soulignant l’importance du sujet mais sans en proposer les outils opérationnels (Champely, 2003), renvoyant ainsi le lecteur à la littérature spécialisée. Enfin, le cas échéant, lorsqu’un exemple est présenté, il s’agit toujours de la même situation (test d’une moyenne avec écart-type connu), sans grand intérêt pratique par ailleurs (pour exemple, se référer à Wonnacott & Wonnacott, 1998). En revanche, les ouvrages de Bouyer (2000) et Howell (1998) contiennent un chapitre consacré à la puissance des tests. Les lecteurs anglophones semblent avantagés, puisqu’ils disposent, en plus d’ouvrages d’introduction à la statistique traitant abondamment de ces sujets tels que Minium, Clarke et Colardarci (1999), Thompson (2006) et Welkowitz, Ewen et Cohen (2006), de livres spécifiques tels que Chow, Shao et Wang (2003), Kline (2004), Kraemer et Theimann (1987) et Murphy et Myors (2003).

5 Au-delà de la présentation de ces notions statistiques, ces derniers ouvrages incluent également des tables statistiques qui permettent de faire face à la complexité des calculs de puissance (calculs qui ne peuvent être réalisés à la main). Bien entendu, il existe aujourd’hui de nombreux logiciels statistiques permettant de les effectuer (voir l’annexe logiciels). Cependant, concernant l’ensemble de ces logiciels, il convient de souligner que les notations utilisées ne sont pas systématiquement celles rencontrées dans la littérature et que les manuels d’emploi ne sont pas souvent détaillés. Mais il est vrai que ce n’est pas leur but premier que d’exposer en profondeur des concepts théoriques.

6 Cet article présente les notions de taille d’effet et d’analyse de puissance (1) en langue française, (2) sous une forme non mathématisée, (3) à l’aide de deux exemples réels provenant du domaine sportif, (4) utilisant les tests statistiques les plus connus. Les implications de ces deux notions pour la pratique scientifique seront explicitées en traitant directement les deux exemples. Il ne sera pas fait mention, en revanche, du mode de calcul des tailles d’effet et des puissances dont seules les implications et l’utilisation nous intéressent ici. Cependant, une documentation technique en français, disponible sur simple demande aux auteurs, y pourvoit pour les situations les plus courantes (comparaison de moyennes, de proportions, analyse de variance, de corrélation ou du ?2) illustrées d’exemples issus des sciences du sport. Ce document technique est en outre accompagné d’un logiciel libre de distribution (package pwr du logiciel R disponible sur le site : wwww. R-project. org ).

2 – Un exemple statistiquement non significatif

7 L’auteur B a mené une étude (non encore publiée) visant à mesurer les répercussions psychologiques d’un programme d’activités physiques et sportives mené auprès d’une population carcérale. Deux groupes de détenus ont été constitués : un groupe (n 1 = 14) pratiquant des activités physiques régulières et encadrées, pendant cinq mois, à raison de trois séances par semaine, et un g3roupe de contrôle (n 2 = 11) ne pratiquant aucune activité physique, mais réalisant la même batterie de tests psychologiques tous les mois. Nous allons nous intéresser ici à la seule mesure du stress perçu (évalué par la PSS-14 de Cohen, Kamarck & Mermelstein, 1983) pour ces individus en début d’étude. En effet, l’administration pénitentiaire n’ayant pas autorisé la pratique d’une randomisation pour la constitution des deux groupes, il convient de s’inquiéter de possibles biais initiaux. Les scores de stress perçu obtenus sont pour les sportifs : M1 = 22.5, SD1 = 5.2 et pour le groupe de contrôle : M2 = 16.4, SD2 = 10.7. Les sujets sportifs semblent donc initialement plus stressés que le groupe de contrôle.

2.1 – L’utilisation traditionnelle du test Student pour deux échantillons indépendants

8 Dans un tel cas, pour comparer deux groupes, il est classique d’employer le test de Student pour deux échantillons indépendants en version bilatérale, ce qui donne dans la situation présente : t = 1.88 ; df = 23 et p = 0.07. Par rapport au seuil usuel de décision de 5 %, le résultat est donc statistiquement non significatif. Afin de bien saisir en quoi les notions de taille d’effet et de puissance permettent de mieux comprendre cette conclusion voire de la moduler, il peut sembler utile de revenir sur le mode de construction de la décision, lorsqu’elle est basée sur un test de significativité.

2.2 – Les variations d’échantillonnage

9 À la base de la décision du test de significativité, il y a la statistique t. Cette statistique mesure l’écart relatif entre les moyennes des deux échantillons. Il convient de décider que les deux groupes sont comparables si cet écart est faible et, en revanche, « à partir d’une certaine limite », que les deux groupes sont différents.

10 La procédure du test de significativité vise à définir précisément cette limite. Pour la déterminer, l’expérience va être artificiellement reproduite afin d’observer quel est le comportement, sur une série d’expériences similaires, de la statistique t suivant les positions respectives des deux groupes. On va supposer que les valeurs de chacun des échantillons sont générées par une loi de probabilités, dite loi normale, caractérisée par une moyenne théorique propre à chaque groupe, ce qui permet de les différencier, et un écart-type théorique commun aux deux groupes. Lorsqu’on génère, en théorie ou informatiquement, des échantillons successifs de ces deux lois normales (à moyennes et écart-type théoriques fixés) de tailles n1 =11 et n2 =14, comme c’est le cas dans le problème considéré, la statistique t prend des valeurs différentes d’une simulation à l’autre, ce qui est communément appelé variations d’échantillonnage. Ces variations observées à partir d’une même situation théorique font comprendre que les conclusions, qui sont prises à la vue d’une seule expérience – celle qui s’est effectivement déroulée – peuvent varier et que l’on peut donc commettre des erreurs.

2.3 – Le risque ? et la région de rejet

11 Une hypothèse supplémentaire, dite hypothèse nulle, va être faite, stipulant que les moyennes théoriques des deux lois normales générant les échantillons sont identiques. Dans ce cas, la statistique t suivra la courbe en trait continu présentée dans la figure 1, appelée fonction de densité et décrivant la concentration de ses valeurs. Il est visiblement peu probable dans cette hypothèse que la statistique t s’écarte fortement de la valeur zéro (ce qui paraît logique, puisque dans le cas où les lois générant les échantillons sont identiques, les moyennes qui en sont issues diffèrent généralement peu).

12 Un seuil de significativité (noté ?) va être fixé, le plus souvent égal à 5 %, qui va définir les valeurs supérieures les moins vraisemblables pour la statistique t (attention il s’agit, dans la figure 1, de la version unilatérale du test). Dans cette figure 1, la surface en noir, placée sous la fonction de densité, représente ces 5 %. L’abscisse correspondante pour la statistique t est ici de 1.71 (pour trouver cette valeur, se référer à une table dite de Student). Cette limite définit une région dite critique, qui signifie que si la valeur réellement observée sur nos deux échantillons dépasse cette limite, on rejettera alors l’hypothèse nulle. Le cas échéant, cette hypothèse nulle ne pourra pas être rejetée (ce qui ne signifie pas pour autant qu’elle sera acceptée).

13 Cette procédure de décision comporte un risque : on voit que dans 5 % des cas, bien qu’on soit effectivement dans le cadre de l’hypothèse nulle, il se produit des valeurs exceptionnelles de la statistique t et donc on commet une erreur, dite de première espèce ou de type I, en rejetant cette hypothèse. La règle de décision, basée sur la région critique, nous prémunit toutefois contre ce risque ? au sens où l’on choisit de le limiter à une faible valeur.

figure im1
Distribution de la statistique t pour le test de Student de comparaison de moyennes dans deux échantillons indépendants (de tailles n 1 = 14 et n 2 = 11). En trait continu, la distribution de la statistique sous l’hypothèse nulle (H0 : loi de Student, df = 23) et en trait pointillé, la distribution de la statistique sous l’hypothèse alternative (Ha : même loi de Student mais décentrée) lorsque l’effet observé est de taille moyenne (ES = 0.5). Avec un seuil de significativité à 5 % pour le test unilatéral, la région critique est W = {t > 1.71}, le risque de première espèce (?) correspond à la probabilité de cette région de rejet sous l’hypothèse nulle et donc à la surface noire sur le graphique. Le risque de deuxième espèce (?) correspond à la probabilité de ne pas être dans la région critique (d’être ainsi dans la région de non-rejet) sous l’hypothèse alternative et donc à la surface hachurée sur le graphique. La puissance 1-? est la partie complémentaire de cette surface hachurée sous la courbe en trait pointillé.

2.4 – Le risque ? (la puissance) et la taille d’effet

14 La règle de décision est donc établie comme le fait de rejeter l’hypothèse nulle lorsque la statistique t se situe dans la région critique. Il est à présent possible de considérer une autre hypothèse dite alternative où les deux lois normales sont différentes : elles n’ont pas la même moyenne théorique. Avec cette hypothèse (alternative), on peut commettre une autre erreur, dite de deuxième espèce ou de type II, en ne rejetant pas l’hypothèse nulle alors qu’on le devrait. Quelle est alors la probabilité, le risque, communément noté ?, de commettre cette erreur ?

15 Ce calcul ne peut être effectué sans décrire précisément l’importance de la différence entre les deux lois de probabilités d’où sont issus les échantillons, ce qui est justement le rôle de la taille d’effet dite prospective. Elle est propre à chaque test statistique. Pour le test de Student qui nous intéresse ici, si ? 1 est la moyenne théorique de la première loi de probabilités, ? 2 celle de la seconde et ? l’écart-type théorique commun, la taille d’effet (effect size) prospective est donc :

16

equation im2

17 Plus la taille d’effet sera forte, plus l’écart à l’hypothèse nulle sera grand et inversement, l’hypothèse nulle correspondant à la nullité de la taille d’effet (ES = 0). La division de la différence entre les deux moyennes par l’écart-type vise à neutraliser l’effet d’un changement d’unités. On parle de taille d’effet relative, cela permet ainsi la comparaison d’études réalisées à des échelles différentes ou avec des échantillonnages différents. La quantification approximative de la taille d’effet prospective peut se faire par recherche bibliographique, connaissance d’expert ou par l’emploi d’études pilotes. Il est également possible d’explorer différents scénarios. Cohen (1988) propose, faute de mieux, d’utiliser comme point de départ des tailles d’effet conventionnelles qui sont pour le test de Student : petite (ES = 0.2), moyenne (ES = 0.5) et forte (ES = 0.8). Nous nous baserons sur ces valeurs conventionnelles de Cohen pour expliciter notre exemple par la suite.

18 La figure 1 indique, en traits pointillés, comment la fonction de densité de la statistique t est décentrée pour un effet moyen (ES = 0.5). En effet, il est logiquement beaucoup plus courant de rencontrer des valeurs élevées de la statistique t puisque les lois de probabilités générant les échantillons sont différentes (on considère dans ce test unilatéral que la première loi de probabilités a une moyenne théorique plus élevée). Cependant, on constate que des valeurs faibles de la statistique t ne sont pas rares et qu’en tout cas, il est tout à fait possible, pour ne pas dire probable, qu’elles se trouvent précisément dans la région où l’on ne rejette pas l’hypothèse nulle (alors qu’on le devrait), dans la région donc où l’on commet l’erreur de deuxième espèce. Le risque correspondant ? est ainsi représenté par la partie hachurée sur la figure 1.

19 À partir de la taille d’effet (ES), de la taille des échantillons (n 1 et n 2) et du risque ?, la probabilité ? de l’erreur de deuxième espèce peut être calculée (Cohen, 1988). Dans les conditions de l’expérience (n 1 = 14, n 2 = 11), en choisissant un risque ? = 0.05 pour un test bilatéral, nous obtenons les erreurs de deuxième espèce suivantes : ? = 0.92 pour ES = 0.2 ; ? = 0.78 pour ES = 0.5 et ? = 0.52 pour ES = 0.8. Ceci signifie que pour une différence qualifiée de forte (ES = 0.8), la probabilité de se tromper, en affirmant qu’elle n’existe pas, est supérieure à 50 % ! Il en résulte ici un déséquilibre très fort entre les deux risques (? = 5 % contre ? = 52 %). La règle de décision n’est donc pas « bonne ». La probabilité d’opter pour l’hypothèse alternative lorsqu’elle est vraie se révèle par conséquent trop faible. Cette probabilité (1 - ?) s’appelle la puissance. Il est d’usage de raisonner plutôt en termes d’analyse de puissance (power analysis) que de risque de deuxième espèce (?).

2.5 – Les déterminants de la puissance

20 Comment remédier à ce problème de faiblesse de la puissance (dans notre exemple, seulement 1 - ? = 0.48 pour un effet fort) ? La formule mathématique à employer pour calculer la puissance du test montre que (1) 1 - ? est fonction croissante de la taille d’effet (plus les effets seront forts, plus il sera facile de les détecter) ; (2) 1 - ? est fonction croissante des tailles d’échantillon (plus il y aura de mesures et plus il sera facile de détecter des effets, même faibles) et (3) 1 - ? est fonction croissante du risque ? (diminuer le risque d’erreur dans l’une des deux hypothèses entraîne forcément une augmentation du risque dans l’autre, il est en effet impossible de gagner sur les deux tableaux).

  1. Une première solution serait d’être moins exigeant quant au risque de première espèce en prenant par exemple ? = 0.10 (ainsi 1 - ? = 0.61 pour un effet fort) mais, comme cela fait rarement des miracles et conduit finalement à ne maîtriser correctement aucun des deux risques, il convient de ne pas aller plus loin voire de garder la convention ? = 0.05.
  2. Une autre solution serait de pratiquer des tests unilatéraux. Dans ce cas, l’hypothèse alternative postule dès le départ qu’une des moyennes théoriques (précisée au préalable) est plus grande que l’autre et donc que ces deux moyennes ne sont pas seulement différentes comme dans le cas bilatéral (dans l’exemple proposé, cela donnerait aussi 1 - ? = 0.61 pour un effet fort). Cependant, cette solution semble dangereuse puisqu’il est ainsi possible de passer à côté d’un effet surprise (en fait dans l’exemple traité, on s’attendait plutôt à ce que les sportifs soient initialement moins stressés, modifier le test unilatéral dans l’autre sens à la vue des données revient à tricher… et dans l’exemple traité le test unilatéral ainsi biaisé est significatif !).
  3. Une troisième solution réside dans le fait d’ajuster la taille de l’expérience en fonction des effets espérés, en jouant sur la taille des échantillons, en vue d’obtenir une puissance satisfaisante (conventionnellement fixée à 1 - ? = 0.80). Dans le cas présent, pour un effet moyen (ES = 0.5), le calcul montre qu’il faudrait n = 64 individus dans chaque groupe.
  4. S’il est impossible d’augmenter la taille des échantillons jusqu’à la limite ci-dessus, il faut alors organiser l’expérience différemment : limiter la variabilité de la variable dépendante (en travaillant sur une population plus homogène ou en changeant d’instrumentation), apparier les individus, faire des blocs, utiliser des covariables, employer un dispositif multifactoriel ou mesurer simultanément plusieurs réponses. À taille d’échantillon fixée, l’emploi d’un dispositif expérimental judicieux permet d’augmenter la puissance de façon considérable, ce qui étend les chances de pouvoir montrer le type d’effet escompté.
  5. Enfin, si les conditions d’expérience ne peuvent pas être modifiées (dans le cadre de protocoles très stricts soumis à des contraintes organisationnelles et méthodologiques précises comme cela peut être le cas en milieu carcéral), l’accent peut-être mis sur la taille d’effet rétrospective ou observée[1] :
equation im3
Cette taille d’effet rétrospective (ES obs = 0.75) est forte d’après la classification de Cohen. La puissance observée correspondante est : 1 - ? obs = 0.43. Les conditions expérimentales, qui ne pouvaient pas être améliorées dans cette étude au vu de son contexte, conduisent donc à un test statistique déséquilibré en termes d’erreurs (? = 0.05 et b = 0.57). Dans de telles conditions, il faut donc moins se soucier de la probabilité critique, c’est-à-dire de la significativité statistique, que de la taille d’effet observée. La taille d’effet est insensible à la faible dimension des échantillons et permet de discuter de la significativité scientifique du résultat, qui témoigne tout de même d’un écart de six points de stress perçu entre les deux populations.

3 – Un exemple statistiquement significatif

3.1 – L’approche traditionnelle du test de corrélation linéaire

21 Le deuxième exemple est extrait d’une enquête en cours de publication (A. Ferrand & auteur A, Université Lyon 1) qui vise à étudier la fidélité des supporteurs de l’ASVEL, équipe professionnelle de basket-ball de Lyon-Villeurbanne (France). Un sondage aléatoire simple a été conduit auprès de spectateurs des matchs mettant en jeu cette équipe dont on ne conserve ici que les supporteurs de l’ASVEL (n = 586). Deux questions vont retenir notre attention. La première était destinée à savoir s’il était difficile pour eux de choisir les matchs auxquels ils allaient assister. Les réponses sont quantifiées sous la forme de scores, échelonnés de 1 (très facile) à 9 (très difficile). La seconde question portait sur la distance séparant le domicile de l’individu du stade de l’ASVEL. Il s’agit donc de mettre en lumière l’existence d’une éventuelle relation, pour les supporteurs, entre la distance séparant leur domicile du stade et la difficulté quant au choix des matchs auxquels ils vont assister. Cette relation est supposée être positive, imaginant que le coût supplémentaire de transport rende la déception plus cuisante, ce qui conduit à l’emploi d’un test de significativité unilatéral.

22 Quoique discrète, la distribution du score de difficulté s’avère relativement symétrique et, après transformation, la (log) distance est proche de la normalité. Le coefficient de corrélation de Bravais-Pearson permet donc de répondre à la question de l’existence d’un lien entre ces deux variables. Il est ici de r = 0.12 (t = 2.84, df = 584, p < 0.01). La relation est statistiquement significative. Les deux variables « difficulté de choix » et « distance séparant le domicile du stade » sont donc corrélées positivement, ce qui signifie que plus les supporteurs habitent loin du stade, plus le choix du match auquel ils souhaitent assister devient difficile.

3.2 – L’apport de la taille d’effet rétrospective

23 En ce qui concerne ce test, la taille d’effet prospective s’identifie au coefficient de corrélation linéaire théorique entre les deux variables :

24

equation im4

25 Ainsi, dans le cadre de l’hypothèse nulle (de non corrélation) du test, la taille d’effet est nulle également, puisqu’elle correspond justement au coefficient de corrélation linéaire. Cette taille d’effet est indépendante des unités de mesure, il s’agit là encore d’une taille d’effet relative. Concernant ce test de corrélation linéaire, les tailles d’effet conventionnelles proposées par Cohen (1988) sont petite (ES = 0.1), moyenne (ES = 0.3) et forte (ES = 0.5). Pour un test unilatéral avec un risque de première espèce de ? = 0.05 et n = 586, les puissances obtenues pour les tailles d’effet conventionnelles sont les suivantes : 1 - ? = 0.78, 1 et 1. Ces fortes puissances témoignent donc d’une très faible probabilité de se tromper si la corrélation existe. Si c’est un effet moyen qui est attendu, il s’avère même que la taille de l’étude peut être de fait, largement diminuée puisque si ES = 0.3, on montre qu’il suffit de prendre n = 68 unités statistiques pour atteindre une puissance de 1 - ? = 0.80. Même un effet faible peut être détecté de façon satisfaisante (car si ES = 0.1 alors 1 - ? = 0.78).

26 Or l’effet observé est ici concrètement de r = 0.12 ce qui signifie, si nous nous plaçons dans une perspective de régression entre Y et X plutôt que de corrélation entre Y et X, que l’on explique moins de 1,4 % (r 2) de la variabilité de Y à partir de X ! La significativité statistique, basée sur la probabilité critique (ici p < 0.01), provient en l’espèce bien plus du nombre élevé d’individus (n = 586) que de l’intensité réelle de la liaison. Le pouvoir explicatif semble donc faible dans l’absolu, mais il reste à savoir quel type d’effet est considéré comme pertinent d’un point de vue scientifique. Sur cet exemple, la connaissance apportée n’est sans doute pas substantielle, mais pour certains problèmes, un effet bien que conventionnellement étiqueté comme faible pourra malgré tout être perçu comme scientifiquement intéressant (Prentice & Miller, 1992 ; Rosenthal & Rubin, 1983 ; Yeaton & Sechrest, 1981).

4 – Discussion

27 L’analyse de ces deux exemples met en exergue le fait que la discussion concernant les résultats d’une étude statistique ne doit pas seulement dépendre de la significativité statistique obtenue. Elle doit intégrer également la significativité scientifique qui s’en dégage et qui peut s’appréhender par le concept de taille d’effet. La proposition de présenter dans les résultats de recherche non seulement les probabilités critiques mais aussi les tailles d’effet rétrospectives remet au centre de la discussion le phénomène étudié et ses implications scientifiques au-delà de celles seulement statistiques (la puissance rétrospective n’ajoutant, elle, que peu de choses à la discussion, lire à ce sujet Hoenig & Heisey, 2001).

28 Certains proposent d’aller plus loin en abandonnant le cadre des tests de significativité pour lui préférer celui des intervalles de confiance (Lecoutre & Poitevineau, 2000 ; Shrout, 1997 ; Thompson, 2002). Cette dernière notion a le mérite d’être le plus souvent centrée sur l’estimation de l’effet, mais donne aussi, par la largeur de l’intervalle, une idée de notre incertitude sur la connaissance de cet effet (reliée bien sûr à la variabilité du phénomène étudié et au nombre de mesures prises). Cette perspective semble en effet prometteuse, l’idée d’intervalle paraissant pour beaucoup plus « naturelle » que celle du test de significativité. Toutefois, on peut soulever plusieurs objections : (1) les erreurs d’interprétation sont aussi monnaie courante avec cette idée si « naturelle ». (2) Un consensus reste à trouver, même au sein de la communauté statistique, quant à leur utilisation (Quel effet calculer ? Quelle approche de l’inférence statistique : bayésienne ou fréquentiste ? Intervalle bilatéral, unilatéral, centré sur zéro ? Quelle procédure de calcul ?) avant de pouvoir en arriver à une standardisation telle que celle existant avec les tests de significativité. (3) Comme le remarquent Fidler et al. (2004), malgré une politique volontariste de certains éditeurs dans le domaine médical, les intervalles de confiance, s’ils sont dorénavant largement présentés, sont en revanche peu utilisés dans la discussion menée dans les articles, les auteurs ayant semble-t-il quelques difficultés à les interpréter. Enfin (4), les intervalles de confiance pour les tailles d’effet relatives sont complexes à calculer (Smithson, 2003) et rares sont les logiciels qui proposent ces calculs (site internet de G. Cumming : wwww. latrobe. edu. au/ psy/ esci ). Il semble donc pour l’heure prématuré de délaisser le cadre des tests de significativité, mais indispensable de le compléter d’une taille d’effet rétrospective, voire d’un intervalle statistique.

29 Si la publication des tailles d’effet rétrospectives se généralise, cela faciliterait également la réalisation de méta-analyses qui consistent à regrouper les résultat s de plusieurs expérimentations concernant le même problème et à étudier la reproductibilité de certains effets. Puisque la base de ces méta-analyses est d’avoir une mesure comparable des résultats d’une étude à l’autre, les tailles d’effets relatives sont alors tout indiquées pour réaliser ce type de comparaisons (lire cependant Lenth, 2001, pour les problèmes dans l’utilisation des tailles d’effet relatives). De même, en prenant conscience des tailles d’effet habituellement observées dans un domaine, il sera alors possible de pouvoir s’y référer lors d’études ultérieures (et d’abandonner ainsi les tailles conventionnelles).

30 L’utilisation des tailles d’effet prospectives présente également l’intérêt, en amont de toute recherche, de contribuer à la détermination des tailles d’échantillons qui seront nécessaires pour obtenir des puissances suffisantes (voir par exemple Cohen, 1992, pour un résumé limité aux tests classiques). En effet, la plupart des recherches publiées utilisent des effectifs de trop petite taille, les puissances observées pour démontrer des effets moyens étant de l’ordre de 50 %. Il faut bien comprendre que les effets détectés statistiquement dépendent de la taille de l’expérience. Ainsi, un nombre d’individus restreint (petit échantillon) transforme un test de significativité en une simple loterie en dehors des cas d’effets grossiers ! Il reste que, pour employer ces techniques de planification, il faut définir au préalable la taille d’effet escomptée afin de décider de la taille de l’expérience à réaliser. C’est là sans doute le frein majeur pour la diffusion de ces méthodes de planification. Ces nouvelles pratiques demandent en effet de préciser ses hypothèses dès le départ et de définir ce qui paraîtra ou non scientifiquement intéressant. Sans se reposer aveuglément sur elles, les tailles d’effets conventionnelles de Cohen ont eu au moins le mérite de nous apprendre qu’il faut le plus souvent (1) soit revoir drastiquement les tailles d’échantillons collectés (2) soit envisager des dispositifs expérimentaux plus performants. Il convient de lire à ce sujet l’ouvrage classique de vulgarisation de Cox (1992).

31 Enfin, un autre intérêt des analyses de puissance est de faciliter la compréhension de ce que peut signifier prouver l’hypothèse nulle (pour en savoir plus sur la question, on trouvera une série de références dans la note de Bartko, 1991). En effet, lorsqu’un effet n’est pas statistiquement significatif, cela amène souvent le chercheur à conclure à l’absence d’effet (c’est-à-dire à conclure que l’hypothèse nulle est vraie), ce qui est faux. En fait, pour prouver l’hypothèse nulle, il faudrait définir au préalable la taille d’effet qui serait considérée comme scientifiquement sans intérêt (par exemple ES < 0.10 pour un test de corrélation linéaire). Ainsi, si l’expérience était dimensionnée pour atteindre une puissance accordant autant de chances à l’hypothèse alternative qu’à l’hypothèse nulle (soit ? = ? = 0.05) – ce qui signifie ici n = 1300 ! – et que le résultat obtenu était statistiquement non significatif, il serait alors possible de pouvoir conclure à la vraisemblance de l’hypothèse nulle. Il semble toutefois exceptionnel (mais possible avec des techniques particulières de tests de bio-équivalence, Schuirmann, 1987) de souhaiter consacrer autant d’énergie à la démonstration de l’inexistence d’un effet.

Remerciements

Nous tenons à remercier les deux experts anonymes pour leur travail qui a permis d’améliorer de façon considérable ce manuscrit.

ANNEXE LOGICIELS

32 Les logiciels professionnels qui permettent d’effectuer des calculs de puissance et de taille d’échantillon sont : JMP®, MINITAB®, S-Plus®, SAS®, STATA®, STATISTICA® et SYSTAT®, de même que des logiciels spécifiques payants : nQueryAdivsor® de BMDP®, PASS® de NCSS®, Power and Precision® et SamplePower® de SPSS® qui sont destinés à des applications plus pointues. Il existe également des logiciels libres, comme GPOWER (Erdfelder, Faul & Buchner, 1996) qui semble être le plus utilisé, mais aussi PC-size, Powpal ou des calculateurs en ligne ( wwww. stat. uiowa. edu/ rlenth/ Power entre autres).

Bibliographie

  • Bartko, J. (1991). Proving the null hypothesis. American Psychologist, 46, 1089.
  • Bouyer, J. (2000). Méthodes statistiques – Médecine – Biologie. Paris, Éditions ESTEM.
  • Champely, S. (2003). Statistique vraiment appliquée au sport. Bruxelles, De Boeck Université.
  • Chow, S.C., Shao, J. & Wang, H. (2003). Sample size calculations in clinical research. New York, Marcel Dekker.
  • Christensen, J.E. & Christensen, C.E. (1977). Statistical power analysis of health, physical education, and recreation research. Research Quarterly, 48, 204-208.
  • Cohen, J. (1962). The statistical power of abnormal-social psychological research: a review. Journal of Abnormal and Social Psychology, 65, 145-153.
  • Cohen, J. (1988). Statistical power analysis for the behavioural sciences. Hillsdale, NJ, Lawrence Erlbaum Associates.
  • Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.
  • Cohen, J. (1990). Things I have learned (so far). American Psychologist, 45, 1004-1012.
  • Cohen, J. (1994). The earth is round (p < 0.05). American Psychologist, 49, 997-1003.
  • Cohen, S., Kamarck, T. & Mermelstein, R. (1983). A global measure of perceived stress. Journal of Health and Social Behavior, 24, 385-396.
  • Cox, D. R. (1992). Planning of experiments. New York, John Wiley and Sons.
  • Erdfelder, E., Faul, F. & Buchner, A. (1996). G*Power: A general power analysis program. Behavior Research Methods, Instruments & Computers, 28, 1-11.
  • Eston, R.G. & Rowlands, A.V. (2000). Stages in the development of a research project: putting the ideas together. British Journal of Sports Medecine, 34, 59-64.
  • Fan, X. (2001). Statistical significance and effect size in education research: two sides of a coin. The Journal of Education Research, 94, 275-282.
  • Fidler, F., Thomason, N., Cummings, G., Finch, S. & Leeman, J. (2004). Editors can lead researchers to confidence intervals, but can’t make them think. Statistical reform lessons from medecine. Psychological Science, 15, 119-126.
  • Greenfield, M.L., Kuhn, J.E. & Wojtys, E.M. (1997). A statistics primer. Power analysis and sample size determination. American Journal of Sports Medecine, 25, 138-40.
  • Henson, R.K. & Smith, A.D. (2000). State of the art in statistical significance and effect size reporting: a review of the APA Task Force report and current trends. Journal of Research and Development in Education, 33, 285-295.
  • Hoenig, J.M. & Heisey, D.M. (2001). The abuse of power: the pervasive fallacy of power calculations for data analysis. The American Statistician, 55, 19-24.
  • Howell, D.C. (1998). Méthodes statistiques en Sciences humaines. Bruxelles-Paris, De Boeck Université.
  • Huberty, C.J. (2002). A history of effect sizes indices. Educational and Psychological Measurement, 62, 227-240.
  • Kirk, R. (1996). Practical significance: a concept whose time has come. Educational and Psychological Measurement, 56, 746-759.
  • Kline, R.B. (2004). Beyond significance testing: reforming data analysis in behavioral research. Washington DC, American Psychological Association.
  • Kraemer, H.C. & Theimann, S. (1987). How many subjects: Statistical power analysis in research. Newbury Park, CA, Sage.
  • Lecoutre, B. & Poitevineau, J. (2000). Aller au-delà des tests de signification traditionnels : vers de nouvelles normes de publication. L’Année psychologique, 100, 683-713.
  • Lenth, R.V. (2001). Some practical guidelines for effective sample size determination. The American Statistician, 55, 187-193.
  • Marvier, M. (2001). Ecology of transgenic crops. American Scientist, 89, 160-167.
  • Minium, E.W., Clarke, R.C. & Coladarci, T. (1999). Elements of statistical reasoning (2e éd.). New York, John Wiley and Sons.
  • Muller, K.E. & Benignus, V.A. (1992). Increasing scientific power with statistical power. Neurotoxicology and Teratology, 14, 211-219.
  • Murphy, K.R. & Myors, B. (2003). Statistical power analysis: a simple and general model for traditional and modern hypothesis tests. Mahwah, NJ, Lawrence Erlbaum Associates.
  • Olejnik, S. & Algina, J. (2000). Measures of effect size for comparative studies: applications, interpretations, and limitations. Contemporary Educational Psychology, 25, 241-286.
  • Parks, J.B., Shewokis, P.A. & Costa, C.A. (1999). Using statistical power analysis in sport management research. Journal of Sport Management, 13, 139-147.
  • Poitevineau, J. (2004). L’usage des tests statistiques par les chercheurs en psychologie : aspects normatif, descriptif et prescriptif. Mathématiques et Sciences humaines, 167, 5-25.
  • Prentice, D.A. & Miller, D.T. (1992) When small effects are impressive. Psychological Bulletin, 112, 160-164.
  • Rosenthal, R. & Rubin, D. (1983). A note on percent of variance explained as a measure of the importance of effects. Journal of Applied Social Psychology, 9, 395-396.
  • Schuirmann, D. (1987). A compromise test for equivalence of average bioavailability. ASA Proceedings of the Biopharmaceutical Section, 1987, 137-142.
  • Shrout, P.E. (1997). Should significance tests be banned? Introduction to a special section exploring the pros and cons. Psychological Science, 8, 1-2.
  • Smithson, M.J. (2003). Confidence intervals. Thousand Oaks, CA, Sage Publications.
  • Speed, H. & Andersen, M. (1998). Power, effect size and the misinterpretation of statistical inference in exercise science. Paper presented at the Australian Conference of Science and Medecine in Sport, Adelaide, Australia.
  • Sutlive, V.H. & Ulrich, D.A. (1998). Interpreting statistical significance and meaningfulness in adapted physical activity research. Adapted Physical Activity Quarterly, 15, 103-118.
  • Thomas, J.R., Lochbaum, M.R. & Landers, D.E. (1997). Planning significant and meaningful research in exercise science: estimating sample size. Research Quarterly for Exercise and Sport, 68, 33-43.
  • Thomas, J.R., Salazar, W. & Landers, D.M. (1991). What is missing in p < 0.05? Effect size. Research Quarterly for Exercise and Sport, 62, 344-348.
  • Thomas, L. (1997). Retrospective power analysis. Conservation Biology, 11, 276-280.
  • Thomas, L. & Krebs, C.J. (1997). A review of Statistical power analysis software. Bulletin of the Ecological Society of America, 78, 126-139.
  • Thompson, B. (1999). Improving research clarity and usefulness with effect size indices as supplements to statistical significance tests. Exceptional Children, 65, 329-338.
  • Thompson, B. (2002). What future quantitative social science research could look like: confidence intervals for effects sizes. Educational Researcher, 31, 24-31.
  • Thompson, B. (2006). Foundations of behavioural statistics. An insight-based approach. New York, Guilford Press.
  • Vacha-Haase, T. (2001) Statistical significance should not be considered one of life’s guarantees: effects sizes are needed. Educational and Psychological Measurement, 61, 219-224.
  • Vacha-Haase, T., & Thompson, B. (2004). How to estimate and interpret various effect sizes. Journal of Counseling Psychology, 51, 473-481.
  • Welkowitz, J. C., Ewen, R. B., & Cohen, B. H. (2006). Introductory statistics for the behavioral sciences (6th ed.). New York, John Wiley and Sons.
  • Wilkinson, L., & Task Force on statistical inference, APA Board of Scientific Affairs (1999). Statistical methods in psychology journals: guidelines and explanations. American Psychologist, 54, 594-604.
  • Winter, E. M., Eston, R. G., & Lamb, K. L. (2001) Statistical analyses in the physiology of exercise and kinanthropometry. Journal of Sports Sciences, 19, 761-775.
  • Wonnacott, T. H., & Wonnacott, R. J. (1998). Statistique (4e éd). Paris, Economica.
  • Yeaton, W., & Sechrest, L. (1981) Meaningful measures of effect. Journal of Consulting and Clinical Psychology, 49, 766-767.

Mots-clés éditeurs : significativité statistique, analyse de puissance, planification expérimentale, test statistique, taille d'effet

Date de mise en ligne : 23/08/2007

https://doi.org/10.3917/sta.077.0049

Notes

  • [1]
    8.1 est l’écart-type commun aux deux groupes que l’on obtient comme la racine carrée de [(n1 - 1) * SD2 1 + (n2 - 1) * SD2 2] / (n1 + n2 - 2) avec SD1 et SD2 écarts-types observés des deux groupes de tailles n1 et n2.

Domaines

Sciences Humaines et Sociales

Sciences, techniques et médecine

Droit et Administration

bb.footer.alt.logo.cairn

Cairn.info, plateforme de référence pour les publications scientifiques francophones, vise à favoriser la découverte d’une recherche de qualité tout en cultivant l’indépendance et la diversité des acteurs de l’écosystème du savoir.

Retrouvez Cairn.info sur

Avec le soutien de

18.97.14.80

Accès institutions

Rechercher

Toutes les institutions