INTRODUCTION
1 Les techniques de modélisation causale, en particulier les équations structurelles (et notamment celles basées sur la covariance), ont connu un succès croissant auprès des chercheurs en sciences de gestion depuis une vingtaine d’années (Burnette & Williams, 2005). L’une d’elle connait une diffusion croissante dans la communauté de la recherche en management, notamment en management stratégique. Il s’agit de l’approche PLS, développée par Wold à la fin des années soixante et opérationnalisée au début des années quatre-vingt (notamment avec le développement du logiciel PLS 1.8). Il nous parait alors intéressant et opportun de faire le point sur cet outil. En effet, les connaissances sur cette méthode sont peu approfondies ou diffusées en management et on constate le peu de recherches recensant les bonnes pratiques quant à son utilisation. L’objet de cet article est de montrer l’intérêt de cette approche tant d’un point de vue épistémologique (par exemple son caractère exploratoire) que d’un point de vue méthodologique (par exemple ses présupposés statistiques ou ses éléments d’évaluation). Car, au-delà d’être une simple alternative aux méthodes d’équations structurelles basées sur la covariance – LISREL étant la plus connue –, l’approche PLS possède ses propres spécificités. Un second objectif est alors de montrer en quoi cette approche offre de réelles opportunités pour la recherche en management. Dans une première partie, la méthode et ses principes sont exposés. Au sein de la seconde partie, les spécificités de l’approche PLS sont abordées et l’utilisation de l’outil est étudiée à travers l’analyse empirique de 51 articles en management/stratégie.
L’APPROCHE PLS : LA METHODE ET SES PRINCIPES
Principes de la méthode PLS
2 L’approche PLS fait partie des modèles d’équations structurelles à variables latentes, « méthodes de modélisation de phénomènes apte à bien définir des systèmes complexes en interaction » (Jakobowicz, 2007). Qualifiés de méthodes de seconde génération (par comparaison aux méthodes de première génération comme les analyses en composantes principales ou les analyses multidimensionnelles), les modèles d’équations structurelles offrent au chercheur une plus grande flexibilité dans l’interprétation entre théorie et données (Chin, 1998). Plus précisément, ces méthodes permettent d’introduire « des variables latentes ou non observables, de spécifier la nature des relations entre ces variables latentes et leurs mesures, de préciser le type de relations envisagées entre les variables latentes ou encore d’analyser des inférences causales entre plusieurs ensembles de variables explicatives et expliquées » (Croutsche, 2002). L’approche PLS présente des spécificités qui vont être développées par la suite. Il nous semble néanmoins important de souligner dès à présent que cette méthode est particulièrement adaptée au développement théorique et aux applications prédictives. Elle a été dès son développement présentée comme adaptée aux analyses causales prédictives dans des situations de forte complexité et d’information théorique faible (Jöreskog & Wold, 1982).
3 L’approche PLS est une démarche itérative non linéaire suivant les moindres carrés partiels qui minimise les variances résiduelles sous une contrainte de « point fixe ». Cette méthode tient compte des variances résiduelles relatives aux variables théoriques et aux variables observées (Croutsche, 2009). Elle permet de modéliser des relations non récursives. On utilise un processus d’estimation en régressant les variables latentes avec leurs indicateurs respectifs et en régressant les variables latentes entre elles.
4 On estime tout d’abord les variables latentes à partir du modèle externe. « L’estimation externe Yj de la variable latente ?j est construite comme une combinaison linéaire des variables manifestes xjh :
5 Où wj est le vecteur colonne des coefficients wjh. On impose à la variable Yj d’être centrée-réduite. » (Tenenhaus, 1999 : 15).
6 Puis on réalise « l’estimation interne Zj des variables latentes à partir des estimations externes Yi des variables latentes ?i liées à ?j :
7 Où le signe signifie que la variable située à gauche de ce signe est obtenue par réduction de la variable située à droite » (Tenenhaus, 1999 : 16).
8 On répète ces deux étapes jusqu’à convergence, puis on estime les coefficients du modèle par des régressions simples ou multiples.
9 Le détail de l’algorithme développé par Wold figure dans de nombreux travaux comme ceux de Tenenhaus (1999), de Chin et Newsted (1999), de Hsu, Chen et Hsieh (2006) ou de Jakobowicz (2007).
Une modélisation des construits adaptée
10 L’approche PLS, à la différence d’autres méthodes d’équations structurelles, autorise différentes modélisations des construits– formatifs, réflexifs ou les deux (figure 1). En effet, de nombreuses difficultés surgissent lorsqu’il s’agit de traiter des construits formatifs à l’aide de méthodes basées sur la covariance. Petter, Straub et Rai (2007 : 640) les explicitent clairement. Elles sont dues essentiellement à la nécessité d’identifier le modèle afin qu’une solution existe pour chaque paramètre au sein du modèle. Le cas des construits formatifs pose problème au sens où ils sont statistiquement sous-identifiés. On peut alors être amené à « altérer le modèle pour s’adapter à l’outil statistique (en enlevant des liens structurels, en ramenant les termes d’erreur du construit à zéro ou en modifiant tout le modèle) […] ou bien à modéliser les construits de façon réflexive » (Petter, Straub et Rai, 2007), solution fort peu recommandable. En effet, le choix effectué par le chercheur de définir des relations formatives, réflexives ou mixtes entre des indicateurs et leurs construits respectifs est fondamental. Car, au-delà des conséquences statistiques, c’est bien la fiabilité et la solidité des résultats de la recherche qui sont en cause. Ainsi que Crié (2005 : 20) le souligne, « une mauvaise spécification du sens causal entre un construit et ses mesures conduit inévitablement à des conclusions erronées en ce qui concerne les relations structurelles avec les construits ». Le lien entre chaque variable latente et ses variables de mesure est donc fondamental car il reflète la conceptualisation des construits et donc leur fiabilité. Jarvis, Mackenzie et Podsakoff (2004) ont ainsi démontré, à travers une large étude de publications utilisant les méthodes d’équations structurelles, que 71% des construits étaient correctement modélisés. Parmi ceux qui ne l’étaient pas, les résultats de la recherche menée montrent que l’erreur de spécification des modèles de mesure – même d’un seul construit – peut avoir de sérieuses conséquences pour les conclusions théoriques tirées du modèle. Dans le cadre d’un modèle causal, trois types de relations sont possibles selon que les indicateurs soient réflexifs, formatifs ou les deux.
Modes réflexif et formatif
Variable?2
?1
latente (Composant 1) (Composant 2)
X13 X12 X11 Y13Y12Y11
Variables
manifestes
?1 ?2 ?3
Chaque variable manifeste La variable latente est générée
reflète sa variable latente par sesmparonpifreesstevsariables
xjh= ?jh? j + ? jh ?j = ?? jhxjh +?J
h
où ?jh est un terme aléatoire de moyenne non où ?j est un terme aléatoire de moyenne
nulle et non corrélé à la variable latente ?j nulle et non corrélé aux variables
manifestes x
jh
Modes réflexif et formatif
11 Dans le cadre du mode réflexif (aussi appelé mode A), les indicateurs sont créés dans la perspective de mesurer tous le même phénomène sous-jacent. Chaque variable manifeste reflète sa variable latente et lui est reliée par une simple régression. En d’autres termes, la variable latente existe théoriquement mais reste inobservable. Elle influence les indicateurs, expliquant leurs inter-corrélations. Les indicateurs réflexifs doivent avoir une cohérence interne. En effet, comme le précisent Jarvis et al. (2004), la validité du construit reste inchangée si l’on retire un seul indicateur parce que toutes les facettes d’un construit unidimensionnel doivent être représentées de manière suffisante dans les indicateurs restants. Pour cela, il est nécessaire de remplir les conditions d’unidimensionnalité du construit et de signe positif des corrélations des indicateurs avec leur variable latente (Tenenhaus, Esposito Vinzi, Chatelin & Lauro, 2005).
12 Le mode formatif (ou mode B) suppose que la variable latente est générée par ses propres variables manifestes. La variable latente est alors une fonction linéaire de ses variables manifestes plus un terme résiduel. Dans ce modèle, le bloc des variables manifestes peut être multidimensionnel. Pour autant, le mode formatif ne doit pas être utilisé comme une simple alternative à un problème d’unidimensionnalité d’un construit. En effet, contrairement au mode réflexif, le sens de la causalité va des variables de mesure à la variable latente et « les indicateurs, en tant que groupe, déterminent conjointement la signification conceptuelle et empirique du construit » (Jarvis et al., 2004). Les indicateurs agissent sur le construit et ne sont pas, comme dans le mode réflexif, causés par un seul et même construit sous-jacent. Comparativement au mode A, la suppression d’un des indicateurs peut engendrer de graves problèmes en modifiant sérieusement la signification de la variable latente. C’est pour cela que sous un tel mode, les indicateurs ne sont pas soumis aux conditions d’unidimensionnalité des construits et peuvent alors être corrélés. Hulland (1999) précise que dans ce cadre, il faut porter beaucoup d’attention à la robustesse de la théorie (qui aide à identifier les mesures appropriées) et à l’utilisation de plusieurs mesures pour un seul construit (afin d’assurer une validité de contenu qui soit acceptable). En conclusion, Jarvis et al. (2004) énumèrent les conditions qui justifient la modélisation d’un construit selon un mode formatif : « les indicateurs sont vus comme des caractéristiques définissant le construit ; des changements dans les indicateurs sont supposés causer des changements dans le construit ; les changements dans le construit ne sont pas supposés causer des changements dans les indicateurs ; les indicateurs ne partagent pas nécessairement un thème commun ; éliminer un indicateur peut altérer le domaine conceptuel du construit ; un changement dans la valeur d’un des indicateurs n’est pas nécessairement supposé être associé à un changement dans tous les autres indicateurs et les indicateurs ne sont pas supposés avoir les mêmes antécédents et conséquences. » Un mode mixte existe, il s’agit du mode MIMIC (ou mode C). C’est un mélange des modes formatifs et réflexifs. La première variable manifeste p1 suit un mode réflexif alors que les autres (p-p1) suivent une voie formative.
13 La juste détermination de la nature des relations entre les mesures et leur construit est donc essentielle à la conceptualisation de l’objet de recherche et à la solidité des analyses statistiques et des raisonnements associés. En effet, « comme le permettent certains logiciels, il ne suffit pas de mettre les flèches dans le « bon sens », encore faut-il être certain que c’est à bon escient » (Crié, 2005 : 24).
Evaluation d’un modèle PLS
14 L’évaluation d’un modèle PLS suppose l’examen attentif de trois éléments méthodologiques principaux (Hulland, 1999) :
15 la détermination de la nature des relations entre les mesures et les construits (point traité précédemment),
16 l’évaluation de la fiabilité et de la validité des mesures et l’évaluation du modèle final.
17 Pour traiter ces deux derniers points, il faut analyser le modèle de mesure et le modèle structurel. Le modèle de mesure est celui qui lie les variables latentes aux indicateurs alors que le modèle structurel lie les variables latentes entre elles (figure 2).
Modèle de mesure et modèle structurel
Y11
?1
Y12
X21
Y13
X22
?2
X23
X11
X2n
?1
X12
X13 Variable endogène Variable endogène
Variable
Modèle structurel Modèle de mesure Variable latente manifeste
Modèle de mesure et modèle structurel
Evaluation du modèle de mesure
18 Le modèle de mesure, appelé aussi modèle externe ou « outer model », est évalué sur la base des critères suivants : la fiabilité de cohérence interne, l’unidimensionnalité des construits, la validité convergente des mesures associées aux construits et la validité discriminante.
19 La fiabilité de cohérence interne peut être vérifiée par deux mesures que sont l’Alpha de Cronbach et la fiabilité composite (Chin, 1998). Ces indicateurs varient entre 0 et 1. La valeur souvent considérée comme indiquant un bon niveau de fiabilité est 0.7 (Tenenhaus, et al., 2005).
20 L’unidimensionnalité d’un bloc se vérifie en étudiant les valeurs propres issues de l’analyse en composantes principales : la première valeur propre doit être supérieure à 1 et la seconde inférieure à 1 (ou très inférieure à la première). En outre, une variable manifeste doit être plus corrélée avec la variable latente qu’elle doit mesurer qu’avec les autres. Dans un cadre exploratoire, on peut, pour former des construits unidimensionnels, regrouper les variables par bloc en réalisant une analyse typologique (Malhotra, 2004 : 601) ou bien en fonction de leurs corrélations sur les axes factoriels. Nous tenons à rappeler que la condition d’unidimensionnalité n’est pas obligatoire dans le cadre d’une modélisation formative des construits.
21 La validité convergente des mesures repose sur l’examen des corrélations (ou loadings) des mesures avec leur construit respectif. Elle ne s’impose pas dans le cas de construits formatifs. Une règle informelle utilisée par les chercheurs consiste à considérer que le cœfficient de corrélation doit être supérieur à 0.7, ce qui implique qu’il y a plus de variance partagée entre le construit et sa mesure que d’erreur de variance. Ceci signifie que plus de 50% de la variance dans la variable observée est dû à son construit. Une corrélation inférieure à 0.7 appelle à la vigilance. En effet, elle peut être le résultat d’un item mal formulé (faible fiabilité), d’un item inapproprié (faible validité du contenu) ou bien d’un transfert inapproprié d’un item d’un contexte à un autre. En règle générale, les items avec des corrélations inférieures à 0.4 ou 0.5 doivent être ôtés. Enfin, une corrélation négative peut signifier que la variable manifeste est inadéquate pour mesurer la variable latente et doit alors être ôtée du modèle. On peut en outre vérifier que chaque item est plus corrélé avec son construit qu’avec les autres construits du modèle.
22 Complément méthodologique traditionnel à la validité convergente, la validité discriminante représente l’étendue avec laquelle les mesures d’un construit diffèrent des mesures d’un autre construit dans le modèle. Dans le cadre de l’approche PLS, cela signifie qu’un construit doit partager plus de variance avec ses mesures qu’il n’en partage avec les autres construits dans le même modèle. Les variables latentes peuvent donc être corrélées [1] entre elles mais elles doivent mesurer des concepts différents. Il doit donc être possible de les discriminer. Afin d’évaluer la validité discriminante, Fornell et Larcker (1981) suggèrent d’utiliser la variance moyenne extraite (« Average Variance Extracted » ou AVE) aussi appelée communaut é moyenne (H2), c’est à dire la variance partagée entre un construit et ses mesures. Pour chaque bloc j :
23 Avec p égal au nombre total de variables manifestes dans les blocs (Tenenhaus, et al., 2005, p.173).
24 Chin (1998) précise qu’il est recommandé qu’elle ait une valeur supérieure ou égale à 0.5. Surtout, cette mesure doit être plus grande que la variance partagée entre le construit et les autres construits du modèle (soit la corrélation au carré entre deux construits). Dans le cadre de l’approche PLS, on analyse ainsi une matrice de corrélation où le carré des corrélations entre les construits figure sur une partie de la matrice et où la variance moyenne pour chaque construit figure sur la diagonale de la matrice. On peut donc de cette façon évaluer la validité discriminante. Si cette dernière n’est pas satisfaisante, alors cela implique que les construits et leurs mesures ne peuvent pas être discriminés de façon adéquate et qu’il est donc inapproprié de les voir comme des entités théoriques distinctes et séparées.
Evaluation du modèle structurel
25 Le modèle structurel, appelé aussi modèle interne ou « inner model », est évalué sur la base de la pertinence prédictive des variables latentes, c’est-à-dire leur validité nomologique. Il convient d’analyser les R2 multiples et le coefficient Q2 de Stone-Geisser. Selon Croutsche (2002), trois seuils de R2 multiple peuvent être pris en compte. Si le R2 est supérieur à 0,1, le modèle est significatif. S’il est compris entre 0,05 et 0,1, alors le modèle est tangent. S’il est inférieur à 0,05, alors le modèle n’est pas significatif. Le R2 permet de comprendre la contribution de chaque variable explicative à la prévision de la variable dépendante. On examine alors les valeurs de R2 pour les construits endogènes (dépendants). Le changement dans les R2 peut être exploré pour voir si une variable latente exogène a un impact substantiel (Chin, 1998 : 316-317). Il est donc important que le chercheur communique les valeurs de R2 pour chaque construit endogène du modèle.
26 La qualité de chaque équation structurelle peut être évaluée par le coefficient Q2 de Stone-Geisser, aussi appelé indice de redondance en validation croisée (Tenenhaus et al., 2005). Il s’agit d’un test de R2 en validation croisée entre les variables manifestes d’une variable latente endogène et toutes les variables manifestes associées aux variables latentes expliquant la variable latente endogène, en utilisant le modèle structurel estimé. Le test de Stone-Geisser repose sur un nombre de classes prédéterminé, en général 30. Pour plus de détails, on peut se reporter aux travaux de Tenenhaus (1999 : 19). Selon Wold (1982 : 30- 34), le test de Stone- Geisser s’ajuste au modèle comme un gant (« fits soft modeling like hand in glove »).
27 avec E représentant la somme des carrés des erreurs et O la somme des carrés des valeurs observées.
28 Si Q2 est positif, alors le modèle présente une validité prédictive. S’il est négatif, on constate l’absence de validité prédictive (Tenenhaus, 1999). Comme le précise Croutsche (2009), « on peut estimer que ce coefficient est acceptable lorsqu’il est supérieur à 0 ».
29 Afin d’obtenir des coefficients de régression significatifs dans le modèle structurel, on peut utiliser des méthodes de ré-échantillonnage comme le jackknife ou le bootstrap. Elles permettent, par le calcul de l’erreur, de savoir si le modèle est stable. Le jackknife permet d’élaborer des échantillons en supprimant des observations dans l’échantillon d’origine. En général, on supprime une seule observation (Chin, 1998 : 318). Puis, on recalcule chaque paramètre et les variations correspondantes. Le bootstrap est sensiblement différent dans l’approche. Il s’agit d’un ré-échantillonnage avec remise. Le nombre de ré-échantillonnages est à déterminer. Par défaut, Tenenhaus et al. (2005 : 176) conseillent un minimum de 100 ré-échantillonnages. De nombreux travaux ont démontré la supériorité du bootstrap sur le jackknife, notamment en raison de la taille du cadre d’échantillonnage (Rodgers, 1999). Chin (1998) précise que le jackknife est moins efficient que le bootstrap dans le sens où il n’en est qu’une approximation, le bootstrap étant une méthode de ré-échantillonnage plus récente.
30 Selon Tenenhaus et al. (2005 : 173), l’approche PLS n’a pas pour objectif, contrairement à d’autres méthodes d’équations structurelles, d’optimiser une fonction scalaire globale. Ainsi, aucun indice global de validation du modèle n’existe, comme cela est le cas pour les méthodes d’équations structurelles basées sur la covariance. Pour autant, ces auteurs ont développé un indice d’ajustement GoF (Goodness-of-fit) présenté comme une solution opérationnelle à ce problème, dans le sens où il s’agit d’un indice de validation globale du modèle PLS. Il s’agit de la moyenne géométrique de la moyenne des communautés et de la moyenne des R2.
L’APPROCHE PLS : UNE MÉTHODE SPÉCIFIQUE DANS SES UTILISATIONS
31 Lors de cette seconde partie, les propos se concentrent sur les spécificités de l’approche PLS. Il s’agit d’aborder tout d’abord les points d’exigence de la méthode pour ensuite la comparer avec une des techniques basées sur la covariance - LISREL. Enfin, l’étude d’une cinquantaine d’articles en management permet d’illustrer la mise en pratique de l’outil.
Une méthode exigeante
32 L’approche PLS est une méthode tout aussi exigeante sur certains points que souple dans d’autres. Il s’agit alors de bien prendre en considération les éléments conduisant au choix de cet outil ainsi que des conditions statistiques sous-jacentes, notamment en ce qui concerne la taille de l’échantillon.
Un choix réfléchi
33 Il est dommage de ne choisir l’approche PLS que par défaut, c’est-à-dire en réaction à une impossibilité à utiliser une méthode basée sur la covariance en raison de la non-conformité des données à un certain nombre d’hypothèses statistiques (normalité, taille de l’échantillon par exemple). Même si ces raisons restent très valables, le chercheur doit être conscient que l’approche PLS porte ses propres spécificités, notamment en ce qui concerne l’objet de la recherche. En effet, ainsi que le souligne fortement Chin (1998), cette méthode peut être préférée à une autre en fonction des objectifs du chercheur et, plus précisément, en fonction du rapport des données à la théorie, des propriétés de ces mêmes données, du niveau de savoir théorique et du développement des mesures. Ainsi, bien que l’approche PLS puisse être utilisée pour confirmer la théorie, elle peut aussi servir à identifier l’existence ou non de relations et alors suggérer des propositions de tests futurs. En effet, l’approche PLS est plus une méthode prédictive et de construction de la théorie car son objectif est d’examiner la signification des relations entre les construits et le pouvoir prédictif de la variable dépendante (Hsieh, Lai et Shi, 2006). Cependant, ce n’est pas parce que l’approche PLS est de nature plus exploratoire que les méthodes basées sur la covariance qu’il faut pour autant s’abstraire d’élaborer un modèle sur la base de construits théoriquement éprouvés (Marcoulides et Saunders, 2006). De façon plus globale, Chin et Newsted (1999 : 337) identifient cinq raisons majeures justifiant l’utilisation de cette approche, qui « sera de plus en plus utilisée dans le futur et qui est congruente avec beaucoup de recherches en sciences sociales » : l’objectif de la recherche est plus la prédiction que la confirmation de la théorie, ou
34 le phénomène étudié est relativement nouveau ou changeant et le modèle théorique ou les mesures ne sont pas très établis, ou
35 le modèle est relativement complexe avec un large nombre d’indicateurs ou de variables latentes, ou
36 il est essentiel de modéliser les relations entre les variables latentes et leurs mesures de différentes façons (formatives et réflexives) ou
37 les conditions sur les données relatives à la distribution normale, à l’indépendance ou à la taille de l’échantillon ne sont pas remplies.
Des conditions statistiques plus souples mais… qui existent
38 La présentation des conditions statistiques liées à l’utilisation de l’outil nous semble incontournable. L’examen des données est fondamental afin de s’assurer de la solidité du modèle. Ainsi la fiabilité des données doit-elle être étudiée, tout comme les caractères de distribution examinés (en utilisant par exemple le coefficient de symétrie ou bien celui de Kurtosis). Les auteurs font remarquer que lorsque les données dérivent de la normalité et que le nombre de données manquantes est important, alors les besoins en termes de taille élevée de l’échantillon se font sentir. S’ils ne sont pas satisfaits, la puissance de l’étude peut en pâtir. Or, dans certaines recherches présentant ces caractéristiques, on peut regretter que l’approche PLS soit utilisée sans tenir compte de ce qui est souvent considéré à juste titre comme un sérieux problème méthodologique (Marcoulides & Saunder, 2006). Il est néanmoins vrai que l’approche PLS tolère des tailles d’échantillon relativement faibles, comparativement aux méthodes basées sur la covariance. Wold (1985) souligne que cela est notamment dû au cadre d’évaluation du modèle, qui repose notamment sur l’utilisation du test du Q2 de Stone-Geisser (utilisé pour la pertinence prédictive) et des méthodes de ré-échantillonnage (pour évaluer les erreurs standards), méthodes qui fonctionnent quelle que soit la taille de l’échantillon. Fornell et Cha (1994) précisent que l’approche PLS examine les modèles de mesure bloc par bloc et donc que le nombre minimal d’observations requises est déterminé par le nombre de paramètres à estimer simultanément. Cela peut expliquer que dans certains cas, on puisse avoir une taille d’échantillon inférieure au nombre de variables de mesure. En effet, comme le soulignent Chin, Marcolin et Newsted (2003), contrairement à d’autres méthodes (comme LISREL), la taille de l’échantillon pour l’utilisation de l’approche PLS n’est pas contrainte par le respect de proportions liées au nombre d’indicateurs. De façon empirique, Chin (1998) fournit la règle suivante pour déterminer la taille de l’échantillon en fonction du modèle de mesure. Il s’agit de multiplier par 10 le nombre de variables de mesures (appelées aussi variables manifestes ou indicateurs) composant la variable latente sélectionnée selon l’une des deux options suivantes :
39 soit la variable latente avec le plus grand nombre d’indicateurs formatifs (c’est-à-dire la plus grande équation de mesure)
40 soit la variable latente dépendant du plus grand nombre de variables latentes indépendantes (c’est-à-dire la plus grande équation structurelle).
41 Ainsi, si la variable latente identifiée comme telle est constituée de 8 variables de mesure, alors la taille de l’échantillon devra être équivalente à 80. Par ailleurs, Chin et al. (2003) ont montré que, au-delà d’un certain seuil, l’augmentation de la taille de l’échantillon ne produit pas de changements significatifs dans les résultats. Mais ils précisent que, pour autant, il faut être vigilant : ainsi, des échantillons faibles (une vingtaine d’observations) ne permettent pas d’analyser des variables modératrices. De plus, dans le cadre de l’analyse d’effets d’interaction (c’est-à-dire l’existence d’une variable modératrice affectant la relation entre une variable indépendante et une variable dépendante), les auteurs démontrent que le nombre d’indicateurs et la fiabilité des items et des construits sont aussi importants que la taille de l’échantillon. Ainsi, les résultats de leur simulation suggèrent-ils une taille d’échantillon comprise entre 100 et 150 observations, et 4 indicateurs ou plus pour chaque construit afin d’évaluer l’impact d’une variable modératrice.
42 Ainsi, au-delà des questions liées à la taille de l’échantillon, Marcoulides et Saunders (2006) attirent l’attention sur d’autres points statistiques à ne pas négliger dans l’utilisation de l’approche PLS comme l’analyse des propriétés psychométriques des variables (fiabilité des items, validité composite par exemple) ou bien encore l’examen des mesures d’erreur et les intervalles de confiance.
Approche PLS et LISREL : éléments de comparaison
43 A ce stade, il nous semble pertinent d’approfondir la question de la spécificité de l’approche PLS par une comparaison avec la méthode de modélisation en équations structurelles la plus utilisée : LISREL (LInear Structural RELationship). La comparaison qui suit (tableau 4) s’inspire, entre autres, des réflexions et des contributions de Fornell et Bookstein (1982), Chin (1995), Chin (1998), Chin et Newsted (1999) et Croutsche (2009).
44 Fondée sur l’approche du maximum de vraisemblance, la méthode LISREL permet une modélisation de la matrice des covariances entre les variables observées. Dans le cadre de l’approche PLS, on modélise directement les données à l’aide d’une succession de régressions simples ou multiples (Tenenhaus, 1999). Ces bases statistiques si différentes entre les deux techniques amènent Jöreskog et Wold (1982 : 270) à caractériser LISREL de modélisation dure par opposition à l’approche PLS qualifiée de modélisation douce. En outre, LISREL est beaucoup moins adapté que PLS pour estimer des modèles formatifs (Chin & Gopal, 1995 ; Crié, 2005). Ensuite, les hypothèses concernant la distribution des données, la taille de l’échantillon et le nombre d’indicateurs par construit sont très fortes pour LISREL, et beaucoup moins pour PLS ainsi que nous l’avons vu précédemment.
45 Puis, à la différence de la méthode LISREL, l’approche PLS n’optimise aucune fonction scalaire, donc il manque naturellement un indice qui puisse fournir à l’utilisateur une validation globale du modèle (comme c’est le cas avec le Chi [2] et d’autres mesures liées aux techniques basées sur la covariance). Pour autant, ainsi que nous l’avons présenté en première partie, un indice d’ajustement (Goodness-of-fit) a été créé afin de répondre à ce problème et permet de valider le modèle PLS dans sa globalité (Tenenhaus, et al., 2005).
46 Enfin, l’approche PLS est particulièrement indiquée dans les recherches de type exploratoire, où le cadre théorique est faible, voire inexistant. Les critères devant aider au choix de la méthode d’équations structurelles PLS sont, selon Haeinlen et Kaplan (2004), les suivants : tout d’abord, un nombre important d’indicateurs par variable latente (qui impose une taille de l’échantillon trop importante dans les méthodes de covariance), ensuite des construits formatifs et enfin la taille de l’échantillon. Hsu et al. (2006) rajoutent le caractère exploratoire de la recherche. Ces critères sont résumés ci-après (figure 4).
Eléments de comparaison entre PLS et LISREL
Critères | PLS LISREL |
Modélisation des construits Variables latentes Test de modèles récursifs Modèle statistique Distribution des données Taille de l’échantillon Nombre d’indicateurs par construit/ Complexité du modèle Approche conceptuell Finalité |
Construits formatifs et Construits formatifs et réflexifs. réflexifs. Déterminées. Indéterminées à un terme d’erreur près. Non. Oui. Approche selon les Approche du maximum moindres carrés de vraisemblance - partiels – Succession Analyse des structures de régressions simples de covariance. ou multiples. Peu importe. Normalité des données. Peut être faible. Elevée. Recommandations Recommandations minimales : de 30 à 100 minimales : de 200 à observations 800 observations Peut être élevé. Peu élevé. En relation Par exemple 100 avec la taille de construits et 1000 l’échantillon. indicateurs Complexité modérée à faible (moins de 100 indicateurs). e/ Peut-être utilisé dans Cadre confirmatoire. un cadre exploratoire. Obligation de se Plus une méthode baser sur un modèle prédictive et de théorique. construction de la théorie. |
Eléments de comparaison entre PLS et LISREL
Diagramme de décision de la méthode d’équations structurelles
formatifs ?
Non
Taille de Non
l’échantillon
élevée ?
Oui
Nombre Oui
d’indicateurs par
variable latente
élevé
Non
Prédiction
Objectif du
modèle
Test de la théorie
Niveau de Exploratoire
développement
du modèle ?
Très développé
Technique d’équations
structurelles basée sur la Tecshtnruiqcutueredl’éleqsuPaLtiSons
covariance
Diagramme de décision de la méthode d’équations structurelles
47 PLS et LISREL peuvent aussi être perçus comme des outils complémentaires, LISREL ayant une finalité confirmatoire. Dans ce cas, de par sa nature exploratoire, PLS permet de mettre en lumière des relations théoriques entre les variables latentes, lesquelles appellent à être confirmées par LISREL. Croutsche (2002) précise que LISREL, en tant qu’approche complémentaire de PLS, va permettre d’analyser la matrice de corrélation des variables latentes (issue de l’analyse PLS) pour ensuite « estimer les valeurs des coefficients de dépendance dès que l’on teste avec PLS un modèle récursif. Dans ce cas, la matrice de corrélation des variables latentes est exacte, alors que les coefficients de dépendance sont biaisés. Enfin, on compare les valeurs des coefficients de dépendance de PLS et de LISREL. Les relations estimées par LISREL sont en général supérieures à celles obtenues par PLS. »
Une analyse empirique de l’approche PLS
48 Afin d’appréhender plus concrètement l’utilisation de l’approche PLS et ainsi d’évaluer la maîtrise de l’outil, nous avons réalisé une étude empirique portant sur des publications en management/stratégie. Ces dernières ont été sélectionnées sur le critère de la qualité de la revue : on a pour cela utilisé les classements des revues effectués par le CNRS, l’AERES et l’ESSEC. 51 articles de 1985 à décembre 2008 ont ainsi été identifiés de façon exhaustive dans 19 revues. Une première analyse permet de faire le constat suivant : à partir de 1997, le nombre d’articles en management commence à croitre, tendance qui se confirme dans les années 2000 (figure 5). Ainsi, de 2000 à 2008, le nombre d’articles utilisant la méthode PLS représente 70% du total des contributions, on remarque une stabilisation du nombre de publications.
Evolution du nombre d’articles en management/stratégie utilisant l’approche PLS
Evolution du nombre d’articles en management/stratégie utilisant l’approche PLS
49 Divers critères, présentés lors de la première partie de cet article, nous ont servi de grille d’analyse. Ils portent sur le contexte d’utilisation de la méthode, la structure du modèle, la taille de l’échantillon et les éléments d’évaluation.
Le contexte d’utilisation
50 Concernant le contexte, nous nous sommes intéressés à la nature de la recherche et aux raisons invoquées pour justifier l’utilisation de la méthode. Les principaux résultats figurent dans le tableau récapitulatif suivant (tableau 5).
Nature de la recherche Exploratoire Confirmatoire Eléments justifiant le choix de l’approche PLS Distribution des données Taille de l’échantillon Construits formatifs Nature prédictive de la recherche Nombre d’indicateurs (complexité du modèle) Nature de la relation entre les construits Formatif Réflexif Les deux Non spécifiée Nombre de variables latentes Moyenne : 8,30 Ecart-type : 6,40 Minimum : 2 Maximum : 47 Coefficient de variation : 0,77 – Homogénéité Nombre d’indicateurs Moyenne : 29,87 Ecart-type : 22,63 Minimum : 2 Maximum : 135 Coefficient de variation : 0,76 – Homogénéité Taille de l’échantillon Moyenne : 213, 77 Ecart-type : 159,50 Minimum : 21 Maximum : 264 (sans les valeurs extrêmes) Coefficient de variation : 0,74 – Homogénéité Facteurs de second ordre Oui |
41,2% 58,8% 62,7% 51% 33,3% 27,5% 15,7% 3,9% 9,8% 31,4% 54,9% 13,7% |
Utilisation des indicateurs d’évaluation du modèle de mesure Loadings (fiabilité des items) Fiabilité composite (validité convergente) Alpha de Cronbach (validité convergente) Analyse des Eigen Values (validité convergente) Variance Moyenne Extraite (AVE) (Validité discriminante) Utilisation des indicateurs d’évaluation du modèle structurel Coefficient Path (coefficient de régression) R2 de chaque construit (prédiction structurelle) Q2 (validité nomologique) Méthodes de ré-échantillonnage Jackknife Bootstrap Aucune Logiciel utilisé PLS Graph Autre Non cité | 64,7% 51% 41,2% 5,9% 62,7% 98% 90,2% 7,8% 23,5% 29,4% 47,1% 25,5% 11,8% 62,7% |
51 Il apparait que plus de 40% des recherches étudiées sont de nature exploratoire. Les principales raisons évoquées pour justifier l’utilisation de l’approche PLS sont : une distribution des données ne respectant pas les règles de normalité, une faible taille de l’échantillon, la structure formative des construits, la nature prédictive de la recherche, et enfin le nombre important d’indicateurs. On remarque, comme l’ont fait Marcoulides et Saunders (2006) et Hulland (1999), que la nature exploratoire et prédictive de la recherche ainsi que le caractère formatif des construits ne sont pas les arguments les plus exploités. Nous notons par ailleurs qu’une seule recherche utilise conjointement l’approche PLS et une approche basée sur la covariance.
Des modèles complexes
52 Concernant la structure des modèles étudiés, nous pouvons émettre les commentaires suivants. Tout d’abord, 55% des recherches analysées ne précisent pas la nature des relations entre les construits et leurs variables respectives. Or, rappelons combien la spécification de la modélisation des construits est fondamentale tant les implications conceptuelles sont grandes (Crié, 2005 ; Jarvis, et al., 2005).
53 Ensuite, différents éléments étudiés (le nombre de variables latentes et le nombre d’indicateurs) mettent en évidence une forte complexité des modèles étudiés – 8 variables latentes et 30 indicateurs en moyenne - qui, au regard d’une faible taille de l’échantillon (moyenne de 214 observations environ), ne fait que renforcer l’intérêt de l’approche PLS.
Des éléments d’évaluation diversement mobilisés
54 Dernier critère d’analyse, les éléments d’évaluation de la recherche sont, comme les résultats ci-après le montrent, diversement mobilisés et démontrent à nouveau le bien-fondé des remarques de Marcoulides et Saunders (2006) et Hulland (1999).
55 Tout d’abord, les indicateurs de vérification de l’unidimensionnalité des construits sont utilisés à des degrés variés comme le montre le tableau 5. Il est surprenant de noter que les indicateurs de validité convergente (fiabilité composite) et de fiabilité des items (loadings) ne sont cités respectivement que par 51% et près de 65% des articles étudiés. On remarque aussi que l’indicateur de fiabilité composite est plus largement mis en avant que l’alpha de Cronbach, ce qui est cohérent, étant donné que l’indicateur de fiabilité composite est souvent présenté comme plus pertinent (Chin, 1998). Quant aux valeurs propres issues des analyses en composantes principales (Eigen Values), elles ne sont quasiment jamais présentées. Enfin 37% des articles ne spécifient pas la validité discriminante des construits (AVE). Ces éléments semblent démontrer que l’analyse du modèle de mesure ne prend pas systématiquement en compte les différents indicateurs d’évaluation, comme cela devrait être le cas.
56 Quant au modèle structurel, si les coefficients de régression et de R2 sont cités à plus de 98% et 90%, la validité nomologique du modèle n’est quasiment jamais précisée puisque l’indicateur Q2 n’est cité que par 8 % environ des articles étudiés. Enfin, notons que l’indice global d’ajustement développé par Tenenhaus et al. (2005) n’a été cité par aucune des recherches étudiées. Cela parait normal eu égard à la très faible diffusion de ce nouvel indicateur.
57 Des méthodes de ré-échantillonnage sont utilisées par 53% des articles étudiés. La technique la plus utilisée est celle du Bootstrap (29%) suivie par celle du Jackknife (23,5%).
58 Enfin, nous pouvons remarquer que plus de 60% des articles ne nomment pas le logiciel utilisé et que celui le plus cité est PLS-Graph (développé par Chin).
Les enseignements
59 Tout d’abord, les principaux atouts mis en avant par les recherches analysées concernent essentiellement les conditions statistiques plus souples offertes par la méthode ainsi que la possibilité d’étudier des modèles complexes. L’approche PLS a aussi permis l’élaboration de modèles exploratoires, servant ainsi au développement théorique plus qu’au test. Néanmoins on note que l’évaluation du modèle de mesure et celle du modèle structurel apparaissent comme insuffisantes pour justifier de la scientificité des résultats obtenus pour un grand nombre des recherches analysées. Certaines lacunes doivent donc être soulignées : la non-utilisation systématique de l’indicateur de fiabilité composite, la quasi-absence de référence aux valeurs propres issues des analyses en composantes principales ou encore la surprenante absence de référence à la validité nomologique du modèle. Néanmoins, on peut noter une légère tendance ces dernières années à plus utiliser ces outils, résultat peut-être d’une plus grande exigence de la part des évaluateurs des revues ou de l’impact de certains articles comme ceux de Marcoulides et Saunders (2006) ou de Hulland (1999).
CONCLUSION
60 Nous avons tenté, dans cet article, de démontrer en quoi l’approche PLS est une méthode riche et subtile offrant des opportunités pour la recherche en management/stratégie qui méritent d’être saisies. En effet, le champ du management et de la stratégie appelle très souvent, lors de recherches empiriques, l’étude d’entreprises et autres organisations qui sont par nature moins nombreuses ou plus difficiles à toucher lors d’une étude quantitative par questionnaire qu’une population composée de consommateurs ou de citoyens. Cela se traduit alors souvent par des tailles d’échantillon parfois incompatibles avec les exigences des méthodes d’équations structurelles basées sur la covariance. Le chercheur se voit alors contraint de réorienter ses analyses statistiques, de simplifier son modèle ou bien de passer outre les hypothèses statistiques, prenant alors le risque d’obtenir des résultats non significatifs.
61 Par ailleurs, ces méthodes ne s’utilisent que dans un cadre confirmatoire. Or, nombre de chercheurs étudient des phénomènes de nature exploratoire et l’approche PLS se révèle alors bien plus appropriée. Car l’outil ne doit pas conduire la recherche comme cela peut parfois être le cas. En effet, certains chercheurs peuvent être contraints, pour maximiser leurs chances d’être publiés, d’utiliser certains outils statistiques considérés comme « incontournables », à l’instar des équations structurelles. PLS peut alors être une bonne alternative pour des recherches exploratoires et dont les données statistiques ne suivent pas les hypothèses de normalité ou de taille d’échantillon classiquement requises. C’est en cela que cette approche, aux visées plus prédictives qu’explicatives, peut offrir de réelles opportunités aux chercheurs en management, les affranchissant de certaines difficultés techniques et leur permettant de se concentrer alors sur l’essentiel, c’est-à-dire leur objet de recherche. La diffusion de l’approche PLS au sein de la communauté des chercheurs en management pourrait donc contribuer de façon très significative à l’enrichissement scientifique de la discipline.
Revue | Nombre d’articles |
Academy of International Business Academy of Management Journal Canadian Journal of Administrative Science Decision Sciences European Management Journal Journal of Business Ethics Journal of Management Journal of Management Studies Journal of Organizational Behavior M@n@gement Management International Review Management Science Organization Science Revue française de gestion Strategic Management Journal Total |
1 2 1 10 1 5 1 2 3 1 5 6 3 2 8 51 |
Bibliographie
REFERENCES
- ? Burnette, J.L., & Williams, L. J. (2005).
- Structural Equation Modeling (SEM) : an introduction to basic techniques and advanced issues. In R.A. Swanson, E.F. Holton III (Eds.), Research in organization : foundations and methods of inquiry (pp. 143-160). San Francisco : Berret-Koehler Publishers.
- ? Chin, W.W. (1998).
- The partial Least Squares approach for structural equation modelling. In G.A. Marcoulides (Eds.), Modern Methods for Business Research (pp. 295-336). London : Lawrence Erlbaum Associates.
- ? Chin, W.W. (1995).
- PLS is to LISREL as principal components analysis is to common factor analysis. Technology Studies, 2, 315-319.
- ? Chin, W.W., & Gopal, A. (1995).
- Adoption intention in GSS : importance of beliefs. Data Base advances, 26 (2&3), 42-64.
- ? Chin, W.W., Marcolin, B.L., & Newsted, P.R. (2003).
- A partial least squares latent variable modeling approach for measuring interaction effects : results from a Monte Carlo simulation study and an electronic-mail emotion/adoption study. Information Systems Research, 14 (2) : 189-217.
- ? Chin, W.W., & Newsted, P.R. (1999).
- Structural Equation Modeling Analysis with Small Samples using Partial Least Squares. In R. Hoyle (Eds.), Statistical Strategies for Small Sample Research (pp. 307-341). London : Sage Publication.
- ? Crié, D. (2005).
- De l’usage des modèles de mesure réflectifs ou formatifs dans les modèles d’équations structurelles. Recherche et Application en Marketing, 20 (2), 5-27.
- ? Croutsche, J.J. (2002).
- Etude des relations de causalité : utilisation des modèles d’équations structurelles. La revue des sciences de gestion, 198, 81-97.
- ? Croutsche, J.J. (2009).
- Analyse des données en Marketing, en Management et en Sciences Sociales : Conceptualisation et Applications. Paris : Editions ESKA.
- ? Croutsche, J.J. (1997).
- Pratique de l’analyse des données en marketing et gestion. Paris : Editions Eska.
- ? Fornell, C., & Bookstein, F.L. (1982).
- Two Structural Equation Models : LISREL and PLS applied to Consumer Exit-Voice Theory. Journal of Marketing Research, 19 (4), 440-452.
- ? Fornell, C., & Cha, J. (1994).
- Partial Least Squares. In R.P. Bagozzi (Eds.), Advanced Methods of Marketing Research (pp. 52-78). Cambridge : Basil Blackwell.
- ? Fornell, C., & Larcker, D.F. (1981).
- Evaluating Structural Equation Models with Unobservable Variables and Measurement Error. Journal of Marketing Research, 18 (3), 39-50.
- ? Haenlein, M., & Kaplan, A.M. (2004).
- A beginner’s guide to Partial Least Squares Analysis. Understanding Statistics, 3 (4), 283-297.
- ? Hsieh, C.T., Lai, F., & Shi, W. (2006).
- Information orientation and its impacts on information asymmetry and e-business adoption : evidence from China international trading industry. Industrial Management & Data Systems, 106 (6), 825-840.
- ? Hsu, S.-H., Chen, W.-H., & Hsieh, M.-J. (2006).
- Robustness Testing of PLS, LISREL, EQS and ANN-based SEM for Measuring Customer Satisfaction. Total Quality Management, 17 (3), 355-371.
- ? Hulland, J. (1999).
- Use of partial least squares (PLS) in strategic management research : a review of four recent studies. Strategic Management Journal, 20 (2), 195-204.
- ? Jakobowicz, E. (2007).
- Contributions aux modèles structurels à variables latentes. Thèse de doctorat, Conservatoire National des Arts et Métiers, Paris.
- ? Jarvis, C.B., Mackenzie, S. B., & Podsakoff, P.M. (2004).
- Un examen critique des indicateurs de contruit et des erreurs de spécification des modèles de mesure dans la recherche en marketing et en comportement du consommateur. Recherche et applications en Marketing, 19 (1), 73-97.
- ? Jöreskog, K.G., & Wold, H.O. A. (1982).
- The ML and PLS techniques for modeling with latent variables : historical and comparative aspects. In K.G. Jöreskog & H.O.A. Wold (Eds.), Systems under indirect observations, Part 1 (pp. 263- 270). Amsterdam : Elsevier Science Publisher.
- ? Malhotra, N.K. (2004).
- Marketing Research. London : Prentice Hall International.
- ? Marcoulides, G.A., & Saunders, C. (2006).
- PLS : a silver bullet ? MIS Quarterly, 30 (2), iii-ix.
- ? Petter, S., Straub, D., & Rai, A. (2007).
- Specifying Formative Constructs in Information Systems Research. MIS Quarterly, 31 (4), 623-656.
- ? Rodgers, J.L. (1999).
- The Bootstrap, the Jackknife, and the Randomization Test : a Sampling Taxonomy. Multivariate Behavioral Research, 34 (4), 441-456.
- ? Tenenhaus, M. (1999).
- L’approche PLS. Revue de Statistique Appliquée, 47 (2), 5-40.
- ? Tenenhaus, M., Esposito Vinci, V., Chatelin Y.M., & Lauro C. (2005).
- PLS Path Modeling. Computational Statistics and Data Analysis, 28, 159- 205.
- ? Tensaout, M. (2006).
- Spécification des modèles de mesure en marketing. Actes du XIIème congrès AFM Nantes.
- ? Wold, H.O.A. (1985).
- Partial Least Squares. In S. Kotz & N. L. Johnson (Eds.), Encyclopedia of statistical sciences, 6 (pp. 581-591). New York : Wiley.
- ? Wold, H.O.A. (1982).
- Soft Modeling : the basic design and some extensions. In K.G. Jöreskog & H.O.A. Wold (Eds.), Systems under indirect observations, Part 2 (pp. 1-54). Amsterdam : Elsevier Science Publisher.