Notes
-
[*]
Lise-Ceremade, université Paris IX-Dauphine.
-
[**]
IRD, Équipe Jéremi, UR Dial-Cipre.
-
[1]
Ce n’est toutefois pas vrai des analyses spectrales, telles que l’analyse harmonique.
-
[2]
Par exemple, la régression de Cox modélise un risque instantané (celui de la survenue d’un événement dans un avenir proche) en fonction des caractéristiques acquises de l’individu (ces caractéristiques pouvant évidemment inclure tout aspect de son passé et évoluer dans le temps).
-
[3]
L’usage de la modélisation économétrique, qui passe par le commentaire de la valeur ou même simplement du signe des paramètres estimés, requiert un minimum de stabilité de ces estimations.
-
[4]
Certaines méthodes factorielles, telles que l’analyse canonique (AC) et l’analyse factorielle discriminante (AFD), généralisent la régression multiple (Bry, 2001a). À ce titre, on pourrait être tenté de les ranger dans les méthodes « explicatives ». Nous pensons qu’il s’agirait là d’une erreur. L’analyse canonique rétablissant une totale symétrie entre les deux groupes de variables impliqués, son usage est naturellement exploratoire. L’« analyse discriminante », quant à elle, a la réputation d’« expliquer » une variable qualitative à partir d’un groupe de variables prédictives. En réalité, l’appellation « analyse discriminante » recouvre un ensemble de méthodes dont certaines méritent cette réputation, et d’autres non, selon le conditionnement qu’elles utilisent. La régression logistique, par exemple, utilise un conditionnement de la variable qualitative par les prédicteurs ; elle peut donc éventuellement prétendre expliquer la première par les seconds. L’analyse factorielle discriminante, pour sa part, est un cas particulier d’analyse canonique et n’utilise a priori aucun conditionnement. On peut proposer un critère pratique permettant de trancher facilement : une méthode « explicative » véritable, utilisant un conditionnement de la variable à expliquer, débouche immédiatement sur une formule de prédiction de cette dernière. Ce n’est le cas ni de l’AC, ni de l’AFD.
-
[5]
Une proxy ne fait que représenter, avec une certaine erreur, la variable latente associée.
-
[6]
Les facteurs n’estimant plus a priori de variables latentes, l’interprétation isolée de chacun cesse d’être indispensable – elle est d’ailleurs souvent stérile, puisque les structures fortes de X, si elles sont non décorrélées, s’écartent de ces variables latentes. Par contre, le sous-espace formé par les p premiers axes factoriels contient par définition les structures principales de X. Pour les découvrir, on examinera les premiers plans factoriels, en les mettant en rapport les uns avec les autres, pour essayer d’aller un peu au-delà de la dimension 2.
Ignorer la multidimensionnalité, d’une part, et vouloir interpréter à tout prix un facteur, d’autre part, sont des attitudes très dangereuses. On rappellera l’exemple historique de la première composante principale des tests psychométriques de Spearman, interprétée pendant 30 ans comme un « facteur d’intelligence générale » (le fameux facteur G), avant que Thurstone montre sa complète vacuité – reconnue par Spearman lui-même à la fin de sa vie – en mettant en évidence la structure bidimensionnelle profonde des tests (dimensions verbale et mathématique), et le fait que G était très médiocrement corrélé à chacune de ces deux dimensions. On pourrait en sourire si le facteur G n’avait été utilisé pour éjecter prématurément du système scolaire quantité d’enfants britanniques (« sur des bases scientifiques ») afin de faire des économies (Gould, 1983). Comme l’illustre cette affaire, il est tautologiquement irréaliste de vouloir ramener une réalité multidimensionnelle à une dimension unique. -
[7]
Un modèle est constitué de contraintes : la présence ou non de tel ou tel aspect du réel, sa quantification, et la forme de la liaison entre les différents aspects quantifiés. Selon les choix retenus, certains phénomènes seront révélés directement tandis que d’autres, occultés en tant que tels, se manifesteront « en fantôme », en transférant leur effet sur des aspects présents dans le modèle. C’est précisément là que réside le danger, lorsque l’on n’est pas conscient de ce qui est occulté.
-
[8]
En toute rigueur, les variables explicatives originelles sélectionnées sur la base de leur corrélation avec ces facteurs ne sont pas exemptes, de par leur mode de sélection, d’endogénéité, mais c’est le cas de toutes les méthodes de sélection de variables explicatives.
-
[9]
À partir du questionnaire ménage. Cette enquête a été effectuée par l’Institut fondamental d’Afrique noire (IFAN) et par l’Institut de recherche pour le développement (IRD).
-
[10]
À partir du questionnaire biographique de l’enquête IFANIRD.
-
[11]
Selon les résultats de notre enquête. La plupart des recours judiciaires se font à l’instigation des femmes.
-
[12]
Le mariage religieux est censé être enregistré par la suite à l’état civil, mais c’est loin d’être toujours le cas.
-
[13]
Il s’agit du divorce au sens large (juridique ou non).
-
[14]
Cette enquête a été réalisée à Dakar par une équipe IRD-IFAN (Antoine et Fall, 2002) grâce à un financement du CODESRIA (Conseil pour le développement de la recherche en Afrique) et de l’IRD.
-
[15]
Soit, respectivement, les générations qui sont nées en 1967-1976, en 1957-1966 et en 1942-1956. Ces générations sont donc parvenues à l’âge de fonder une famille dans des contextes fort différents.
-
[16]
Les travaux publiés jusqu’ici à partir de cette enquête concernent surtout les femmes, pour lesquelles les informations semblent plus fiables. Leur mariage étant bien plus précoce que celui des hommes (environ 10 ans d’écart d’âge), l’analyse du divorce porte également sur davantage de cas.
-
[17]
Si l’un des conjoints décède, l’observation cesse.
-
[18]
Naissance d’un enfant, changement d’activité, nouvelle résidence, etc.
-
[19]
Les variables qui varient au cours du temps sont l’activité, la descendance et la nature de l’union.
-
[20]
Parmi les autres causes de divorce, citons la difficile cohabitation avec la belle-famille ou entre co-épouses (Dial, 2001).
-
[21]
Pour plus d’explications concernant l’analyse biographique de la nuptialité, voir Antoine (2002).
-
[22]
Pour les personnes qui ne sont pas divorcées, l’observation cesse par troncature à la date de l’enquête.
-
[23]
L’ethnie Wolof est majoritaire à Dakar et ses pratiques culturelles sont de plus en plus adoptées par les autres groupes ethniques.
-
[24]
La très grande majorité de la population dakaroise est musulmane. Parmi ces musulmans, on distingue les membres des confréries Mouride et Tidiane.
-
[25]
On connaît par exemple la prohibition du divorce chez les catholiques.
-
[26]
Autre ethnie constitue une catégorie hétérogène.
-
[27]
Il y a de fortes chances par exemple qu’il y ait une corrélation entre lieu de naissance et lieu de socialisation, par exemple. Une telle redondance éventuelle ne pose aucun problème à l’ACT.
-
[28]
Sur chaque plan thématique, on a également projeté l’ensemble des variables des autres thèmes (leurs intitulés sont en italique), afin de contrôler l’absence de recouvrement trop fort entre les thèmes. Une telle multicolinéarité inter-thèmes rendrait en effet caduc le modèle thématique proposé.
-
[29]
Sur cette question voir Antoine et al., 1998.
1 Explorer, décrire et enfin analyser constituent les objectifs communs de l’ensemble des travaux de recherche. Pour cela, les deux types de méthodes couramment mises en œuvre sont soit des analyses factorielles, soit des régressions linéaires généralisées. Bien que complémentaires, ces démarches sont rarement associées dans la pratique. Dans cet article, Xavier Bry et Philippe Antoine proposent une démarche originale qui exploite les qualités respectives de ces deux méthodes et leur permet ensuite d’analyser le divorce des hommes à Dakar à partir des nombreuses caractéristiques disponibles dans un échantillon aux effectifs réduits. L’analyse en composantes thématiques (ACT) synthétise en effet des variables explicatives redondantes en un petit nombre de facteurs répondant à la problématique de départ, et permet une modélisation linéaire parcimonieuse.
2 L’analyse factorielle et l’économétrie ont la réputation d’être comme l’eau et l’huile : utiles à la bonne cuisine, mais difficilement miscibles. Les méthodes factorielles classiques (ACP, ACM…) sont certes puissantes sur le plan de la réduction dimensionnelle (synthèse de l’hétérogénéité en un petit nombre de facteurs), mais elles ignorent a priori tout schéma explicatif et sont inadaptées à l’exploration des causes et des effets ; ceci pour deux raisons essentielles. Elles présentent en effet deux caractéristiques difficilement compatibles avec la modélisation explicative : en premier lieu, une mesure restreinte aux liaisons deux à deux entre les variables et un haut degré de symétrie entre variables. Ces liaisons bivariées ne permettent pas de mesurer l’effet partiel d’une variable sur une autre, c’est-à-dire l’effet corrigé de l’influence d’autres déterminants. En second lieu, ces méthodes factorielles présentent la particularité de ne pas hiérarchiser les observations, ce qui les rend inadaptées à l’étude d’une dynamique. En effet, lorsque les observations sont datées, l’étude de la dynamique impose le plus souvent de modéliser le futur en fonction du passé [1], ce qui conduit nécessairement à hiérarchiser les observations [2].
3 Les méthodes économétriques, quant à elles, qui sont fondées sur des modèles conditionnels, étudient les liaisons partielles et sont donc tout à fait adaptées à l’analyse explicative. Mais elles doivent s’appuyer sur des modèles parcimonieux, pour échapper au poison des multicolinéarités produites par une excessive redondance des variables explicatives, et fournir des estimations stables [3] ; elles nécessitent donc très souvent une étape de réduction dimensionnelle préalable.
4 On comprend ainsi en quoi ces techniques sont complémentaires et pourquoi l’enchaînement de leurs séquences est, en pratique, assez strict : l’analyse factorielle est utilisée d’abord, dans une optique purement exploratoire, afin d’extraire quelques dimensions fortes des données. Ces dimensions sont, dans un deuxième temps, introduites dans un modèle économétrique qui s’appuie sur un schéma explicatif [4].
5 Malheureusement, cette séquence n’est pas toujours opérationnelle. D’une part, les variables retenues lors de la phase de réduction dimensionnelle ayant été calculées sans prendre en compte un schéma explicatif, elles ne sont pas forcément les plus pertinentes pour la modélisation ultérieure. D’autre part, l’analyse factorielle est sérieusement handicapée par les observations incomplètes, alors que la modélisation permet souvent de gérer ce genre de situations avec rigueur. Pour ces deux raisons, un modèle explicatif doit être pris en compte dès le début de l’analyse.
6 Pour répondre à cette attente, une méthode factorielle nouvelle a été élaborée : l’Analyse en composantes thématiques (Bry, 2003), qui place le modèle explicatif à la source de la réduction dimensionnelle. Cette méthode est une généralisation de la régression PLS (ou MCP) proposée par Wold (1985). Elle est, par construction, adaptée à la modélisation linéaire classique de variables continues dans le cadre de données non temporelles. Nous proposons ici une façon de la coupler avec la modélisation linéaire généralisée, et notamment la modélisation semi-paramétrique de Cox. Nous présentons d’abord cette démarche méthodologique, puis nous l’appliquons à des données originales tirées d’une enquête africaine récente, en proposant une analyse du divorce des hommes à Dakar.
I – La modélisation fondée sur des variables latentes
7 La modélisation économétrique est toujours fondée sur un schéma conceptuel. Ce dernier est la synthèse d’une réflexion théorique poussée, qui, seule, peut fonder son caractère explicatif. Le modèle conceptuel est souvent présenté sous forme de graphe orienté dont les nœuds figurent divers concepts, ou thèmes, permettant de caractériser les observations et dont les arcs figurent des relations de cause à effet ou plus généralement d’influence entre ces concepts. Nous appellerons modèle thématique un tel schéma.
8 Par exemple, pour modéliser le risque de divorce des hommes, on proposera le modèle thématique présenté en figure 1. Ce découpage thématique correspond à la problématique développée en application en quatrième partie de cet article.
Modèle thématique pour l’analyse du risque de divorce
Modèle thématique pour l’analyse du risque de divorce
9 Dans la grande majorité des situations, les dimensions explicatives, même si elles sont conceptuellement claires, restent « touffues » et floues du point de vue de l’observation car elles relèvent de nombreuses caractéristiques qui peuvent se prêter à de multiples mesures. Dans l’exemple ci dessus, le niveau d’instruction est à la fois mesuré pour l’enquêté, son père et sa mère. Les facteurs culturels (ethnie, religion, etc.) influencent non seulement le niveau d’instruction, mais aussi les caractéristiques de l’union. La situation économique du ménage est caractérisée en termes professionnels ainsi que du point de vue du logement, etc. Et enfin, les caractéristiques de l’union jouent a priori sur l’issue de l’union.
10 Pour chacun des thèmes pris en compte dans le modèle, il s’avère nécessaire de dégager les quelques dimensions conduisant à une modélisation économétrique efficace, autrement dit des dimensions d’interprétation claire et fournissant un modèle bien ajusté aux observations.
11 Nous considérons qu’un thème comporte plusieurs dimensions conceptuelles (par exemple, les facteurs culturels ont une dimension urbain/rural, une dimension ethnique, une dimension religieuse…). Traditionnellement, on sélectionne une seule variable observée par dimension conceptuelle, afin d’éviter, dans le modèle, les redondances qui déstabilisent l’estimation. Mais la variable choisie ne fait que représenter cette dimension conceptuelle, laquelle peut souvent être mesurée de plusieurs autres manières. Cette variable est donc utilisée comme une « proxy » [5] pour une variable latente, qui, elle, mesurerait correctement la dimension conceptuelle, mais reste inobservée. En pratique, le choix de la « meilleure » proxy est confronté à une difficulté majeure : on doit exiger d’elle une bonne « représentativité » sur le plan conceptuel, mais on aimerait aussi trouver celle qui a le pouvoir prédictif le plus fort. Or, ce pouvoir prédictif dépend des autres variables explicatives introduites dans le modèle. On doit donc faire face à un problème combinatoire.
12
On peut choisir une tout autre stratégie : fonder le modèle sur les variables latentes (inobservées), lesquelles seront estimées à partir des corrélations entre les variables observées contribuant à décrire une même dimension conceptuelle. Dans cette approche, la redondance des variables observées autour d’une même dimension conceptuelle n’est pas un handicap, mais un atout. Chaque variable latente sous-jacente à un groupe de variables observées est ainsi supposée satisfaire la double contrainte suivante :
- être globalement liée aux variables observées de ce groupe ;
- être liée aux autres variables latentes conformément aux hypothèses du modèle conceptuel.
- C’est la prise en compte de cette double contrainte qui permet d’élaborer une stratégie d’estimation des variables latentes. Une variable latente sera estimée par un facteur optimisant un certain critère. La variable latente et le facteur qui l’estime seront désignés par la même lettre F.
13 Si, par contre, on fonde le modèle sur des estimations stabilisées des variables latentes s’appuyant sur plusieurs variables observées, on améliorera la robustesse des effets estimés.
14 Dans la suite, nous n’aborderons, par souci de simplicité, que les modèles comportant une seule variable observée y à expliquer. Il s’agira par conséquent d’estimer des variables latentes explicatives de y.
II – Estimation de variables latentes par les méthodes factorielles
15 Après un bref rappel des méthodes factorielles les plus classiques (ACP, ACM), estimant des variables latentes sans prendre en compte de schéma explicatif, nous présenterons successivement deux méthodes factorielles plus récentes : la régression PLS, qui s’appuie sur un modèle explicatif simplifié et l’analyse en composantes thématiques, qui étend la précédente au modèle thématique complet.
1 – En l’absence de modèle thématique : ACP, ACM
a – Calcul de la première composante principale
16 On considère un groupe X de J variables numériques observées x1, …, xJ mesurant les différents aspects d’un même thème. On suppose d’abord que toutes les variables xJ du groupe sont issues, à une perturbation ej près, d’une même variable latente F qu’il s’agit d’identifier (figure 2).
Schéma conceptuel de l’ACP
Schéma conceptuel de l’ACP
17 La minimisation des carrés des résidus ej conduit à calculer un facteur F appelé première composante principale de X. Cette méthode a ensuite été étendue au cas plus général où le groupe X est pondéré par une métrique M (matrice carrée symétrique positive de dimension J) comme indiqué dans l’encadré 1.
Encadré 1. Estimation de la première composante principale
Le choix d’une métrique M idoine permet de traiter des variables qualitatives.
Soit X un groupe de R variables qualitatives. On code chaque variable par le groupe des indicatrices de ses modalités. On notera ainsi Xr la r-ième variable et le groupe d’indicatrices correspondant. Le groupe X est formé de la juxtaposition de ces groupes d’indicatrices : X = (X 1, …, XR ). Il est ensuite traité à l’aide de la métrique . L’ACP utilisant cette métrique donne alors l’analyse des correspondances multiples (Lebart et al., 1995; Bry, 1994).
• Dépasser la première composante ?
18 Une fois trouvé le premier facteur, on peut en chercher un second sous contrainte d’orthogonalité au premier. Et ainsi de suite jusqu’à obtenir l’ACP complète de X. Le premier facteur estime la variable latente d’un modèle qui la suppose unique. S’en contenter n’est possible que si le groupe X est essentiellement unidimensionnel, c’est-à-dire constitué de variables qui mesurent toutes, à de petites différences près, la même dimension. Une telle situation n’est pas si fréquente : le plus souvent, le groupe X est structuré autour de plusieurs dimensions, et il importe de les identifier pour ne pas trahir les données. Mais en général, on n’observera pas une absence de corrélation entre les dimensions fortes de X prises deux à deux. Si l’on cherche des facteurs décorrélés, c’est pour simplifier certains calculs ainsi que les représentations graphiques des corrélations entre variables. Ces facteurs ne peuvent donc systématiquement prétendre estimer des variables latentes de façon réaliste. Ils deviennent avant tout un outil de visualisation de la structure de X en dimension réduite, ce qui est indispensable à son exploration. La nécessité de cet assouplissement concerne toutes les méthodes factorielles calculant plusieurs facteurs par groupes.
19 Lorsque l’on calcule plusieurs facteurs par groupes, on les notera Fl, …, F ?, …
b – Interprétation des facteurs
20 Les facteurs estimant les variables latentes sont interprétables à partir de leurs corrélations avec les variables observées. Il est commode de procéder à la représentation graphique des variables observées dans la base factorielle, chaque variable xj ayant pour coordonnée sur l’axe dirigé par F ? la corrélation r(xj ,F ?) qu’elle a avec ce facteur (cf. figure 3).
Représentation factorielle des variables du groupe X
Représentation factorielle des variables du groupe X
21 On cherchera les variables les plus corrélées (positivement ou négativement) avec chaque facteur pour lui donner un sens. Le plan que forment deux facteurs est parfois plus facilement interprétable que les facteurs ne le sont isolément [6]. Il est important d’examiner, pour chaque plan factoriel, l’ensemble des variables qui y sont bien représentées. On trouvera le détail des règles d’interprétation d’une ACP dans Lebart et al. (1995) et Bry (1994).
22 Le modèle conceptuel de l’ACP, trop sommaire, ne permet pas de traduire les causalités impliquant des variables latentes.
2 – En présence d’un modèle unithème : la régression PLS
a – Modèle et estimation
23 Reprenons le modèle de l’ACP, en rendant la variable latente F explicative d’une variable observée y (figure 4). Le groupe X est pondéré par la métrique M.
Schéma conceptuel de la régression PLS
Schéma conceptuel de la régression PLS
24 F est estimée en résolvant un programme de maximisation qui intègre la liaison entre F et X et celle entre F et y (voir encadré 2).
Encadré 2. Estimation de F dans une régression PLS
Or, la maximisation isolée de conduit, on l’a vu, à l’ACP de X, tandis que celle du cosinus de Xmu et y conduit à la régression de y sur X.
25 Ce nouveau programme conduit ainsi à un compromis entre ACP de X (ajustement de la variable latente au groupe X) et régression de y sur X (estimation de y à partir de la variable latente) (Tenenhaus, 1998 ; Bry, 2001b). Ces liaisons entre F et X, d’une part, et entre F et y, d’autre part, sont représentées sur la figure 5.
Le programme initial de PLS
Le programme initial de PLS
26 La résolution du programme de maximisation Q fournit un facteur F proportionnel à XMX’y. On notera RX,M y cette dernière quantité, que l’on a baptisée résultante de y sur le groupe X pondéré par M.
28 Ses propriétés sont étudiées dans Bry (2001b et 2004). La propriété essentielle est que lorsqu’on l’applique à une variable z quelconque, l’opérateur de résultante RX,M = XMX’ rapproche z des structures les plus fortes de X (matérialisées par ses premières composantes principales).
29 Il est important de noter que y désignant la projection orthogonale (régression usuelle) de y sur X, on a: RX,My = RX,My. Par conséquent, de façon heuristique, on peut concevoir le calcul du premier facteur de PLS comme la succession des deux opérations suivantes : 1) régression de y sur X (optimisation de l’estimation) ; 2) calcul de résultante rapprochant la partie prédite y des structures fortes de X.
30 La résolution du programme Q fournit un seul facteur. Si l’on désire structurer X autour de plusieurs facteurs, on relance le programme sous contrainte d’orthogonalité entre les nouveaux facteurs cherchés et les facteurs précédemment trouvés.
31 Lorsque X est composé de variables quantitatives, elles seront centrées et réduites et l’on utilisera la métrique M = I. Lorsqu’il est composé de variables qualitatives, celles-ci seront codées par les indicatrices de leurs modalités, et l’on utilisera la métrique de l’ACM (cf. section 1, p. 913). Il est parfaitement possible de traiter un groupe mixte (contenant à la fois des variables quantitatives et qualitatives) à l’aide d’une métrique M bloc-diagonale, dont l’élément diagonal mjj correspondant à une variable quantitative xj est égal à 1, et le bloc diagonal correspondant à une variable qualitative Xr est égal à (Xr ’Xr )-1. Le choix des métriques est discuté dans Cazes (1997), Tenenhaus (1999) et Bry (2001b).
b – Interprétation des résultats
32 Les facteurs de X s’interprètent de la même façon que dans le cas d’une ACP (on procède à la même représentation des variables de X en base factorielle). Visualiser les corrélations entre variables observées donne une indication essentielle sur le degré de réalisme du raisonnement « toutes choses égales par ailleurs » lors de l’interprétation du modèle estimé. Cette visualisation est également essentielle pour sélectionner les dimensions explicatives qui seront finalement conservées : elle en permet le tri et l’interprétation en termes de liaison avec les variables observées.
33 Par ailleurs, comme les facteurs estiment des variables latentes explicatives de y, ils peuvent être considérés comme un intermédiaire de calcul pour l’élaboration d’une formule d’estimation de y à partir des variables observées xj . Chaque facteur s’écrit comme une combinaison linéaire des variables de son groupe, et il est donc tentant d’interpréter le coefficient d’une variable dans cette combinaison comme mesurant le rôle que cette variable joue dans la formation du facteur. Ultérieurement, en régressant y sur les facteurs, on recherchera la part de chaque facteur dans la formation de y. En combinant les deux, il est aisé de reconstruire une formule prédisant y à partir des xj .
34 L’interprétation des facteurs à partir des coefficients des variables qui entrent dans leur formulation, pourtant fréquente, n’est pas sans poser quelques problèmes lorsque les variables présentent certaines multicolinéarités, ou en sont proches : les coefficients sont alors instables, l’effet de certaines variables pouvant se reporter sur d’autres. Bien que le mode de calcul des facteurs de PLS limite la confusion d’effets (De Jong, 1995), l’interprétation à partir des corrélations variables-facteurs nous paraît préférable à celle fondée sur les coefficients.
35 Les observations peuvent être représentées sur les plans factoriels. Ceci permet notamment le dépistage des observations atypiques et des groupements d’observations. Visualiser la distribution du nuage des observations permet de savoir si tel effet est bien une tendance globale aux données ou s’il est simplement produit par quelques observations atypiques, ce qui en modifie toute l’interprétation.
36 La variable dépendante est régressée sur les facteurs ; leur décorrélation permet la décomposition additive de la variance de y et l’élimination des facteurs les moins importants.
c – Intérêt et limites du modèle
37 L’intérêt des facteurs fournis par la régression PLS, par rapport à ceux de l’ACP, est que, tout en se rapprochant des structures fortes de X, ils sont bien plus efficaces a priori pour estimer y. L’avantage de la régression PLS par rapport à la régression classique (Ordinary Least Square, OLS) est que, s’appuyant sur des structures fortes de X plutôt que sur la totalité de ses dimensions, elle élimine du modèle sa partie la plus fragile. L’estimation en est rendue plus robuste, et le modèle plus facile à interpréter. Il en résulte une légère baisse de la qualité de l’ajustement que l’on peut s’efforcer de rendre aussi petite que possible en prenant davantage de facteurs dans le modèle. Néanmoins, dans la mesure où une part de l’ajustement n’est due qu’à du bruit, l’amélioration obtenue est trompeuse, et mieux vaut éliminer les dimensions correspondantes. Sur le plan pratique, la régression PLS facilite grandement l’analyse des déterminants de y en présentant une hiérarchie de facteurs non redondants permettant la visualisation des structures de corrélation du groupe explicatif X.
38 La régression PLS possède donc des avantages importants par rapport à son homologue OLS. Toutefois, dès que le modèle conceptuel contient plusieurs thèmes explicatifs, elle ne lui correspond plus bien. Si l’on décide, pour l’utiliser, de prendre en compte tous les thèmes explicatifs, la régression PLS fournira des facteurs hybrides, d’autant plus délicats à interpréter qu’ils mélangent des variables conceptuellement hétérogènes.
3 – En présence d’un modèle multithème : l’analyse en composantes thématiques
a – Présentation
39 On considère ici qu’un phénomène décrit par une variable observée y a pour déterminants R groupes explicatifs X 1, …, Xr , … XR correspondant à autant de thèmes (figure 6). L’ensemble des variables des groupes X 1, …, XR est noté X. Chaque groupe Xr est pondéré par une métrique Mr . Pour simplifier, on considère d’abord que chaque groupe Xr est structuré autour d’une unique variable latente Fr .
Schéma conceptuel de l’ACT1 : modélisation multithème d’une variable y
Schéma conceptuel de l’ACT1 : modélisation multithème d’une variable y
40 Lorsque nous cherchons un facteur Fr qui représente le groupe Xr dans ce qu’il a de lié à y, nous devons tenir compte de l’existence d’autres facteurs explicatifs de y. Avant d’appliquer un programme du type de Q entre y et Xr , il s’agit d’éliminer l’influence des autres facteurs courants. C’est ce que fait l’analyse en composantes thématiques. La construction générale de l’ACT et ses propriétés sont exposées dans Bry (2003). Dans le cas le plus général, on a un groupe Y de variables yk à expliquer. Lorsque le groupe à expliquer ne contient, comme ici, qu’une variable observée y, la méthode est notée ACT1, et son algorithme est plus simple.
b – L’algorithme d’ACT1
• Étape 1 (calcul des facteurs de rang 1) Itération 0 (initialisation) :
41 On prend pour valeur initiale de chaque facteur Fr la résultante de y sur Xr , telle qu’elle a été définie dans la section 1, p. 913.
42 Itération k, k>0 (illustrée figure 7) :
Étape 1 de l’ACT1 : calcul du facteur Fr(k) lors de l’itération courante k
Étape 1 de l’ACT1 : calcul du facteur Fr(k) lors de l’itération courante k
43
Pour r allant de 1 à R, on note F-r
(k–1) l’ensemble des facteurs obtenus à l’étape k–1 qui n’inclut pas Fr
, et l’on procède comme suit pour calculer Fr
(k) :
- on régresse y sur {Xr ,F-r (k–1)}. On note ?r la composante calculée à partir de Xr de l’estimation ?
- on pose : Fr (k) = XrMr Xr ??r normé. Ce calcul de résultante rapproche ?r des structures fortes de Xr .
• Étape n (calcul des facteurs de rang n), n>1
44 Chaque groupe Xr est remplacé par ses résidus de régression sur ses facteurs de rang 1, … n–1. On procède alors aux mêmes calculs qu’à l’étape 1, mais avec une petite modification. On doit en effet tenir compte des facteurs obtenus lors des étapes précédentes : chacun de ces facteurs sera considéré dans l’étape courante comme un groupe à lui seul (il est donc égal à la variable latente de ce « groupe »).
c – Interprétation des résultats
45 On représente chaque groupe thématique Xr dans sa base factorielle, comme dans le cas de la méthode PLS. L’interprétation des facteurs se fait suivant les mêmes règles.
46 On pourra également procéder à la représentation du nuage des observations dans les plans thématiques et l’utiliser de la même façon que dans la régression PLS.
47 La variable dépendante y est régressée sur les facteurs retenus, ce qui permet de savoir lesquels jouent un rôle dans son estimation. Après élimination des facteurs les moins importants, on procède une dernière fois à la régression pour estimer le modèle latent.
d – Les avantages de la méthode
48 Cette généralisation de la régression PLS respecte le découpage thématique opéré par le modèle conceptuel multithèmes. Elle permet l’exploration de chaque thème dans le cadre du modèle conceptuel arrêté au départ, en commençant par les dimensions les plus utiles à la prévision de y.
49 Il est important de comprendre que, tout comme le choix des variables explicatives dans une régression classique conditionne complètement l’interprétation des effets (et naturellement leur estimation), le choix d’un découpage thématique conditionne fortement les résultats de l’ACT. Rien de plus normal, puisque changer le modèle conceptuel, c’est changer le point de vue sur les données. Cette sensibilité au modèle initial est-elle une faiblesse ? Selon nous, c’est exactement le contraire. On ne saurait oublier que toute méthode statistique est fondée sur un modèle conceptuel (la sélection des variables l’est elle-même). Lorsque ce modèle n’apparaît pas clairement, il n’en est pas moins implicite, et son invisibilité fait courir un risque accru de biais dans les conclusions [7]. L’ACT oblige l’analyste à préciser son modèle dès le départ et, partant, à l’argumenter. Le découpage thématique, rarement univoque, lui impose d’en appeler ouvertement à une théorie qui, en retour, est seule à pouvoir lui donner des clefs d’interprétation. Il nous semble ainsi que l’ACT a une fonction de rationalisation des pratiques sur le plan épistémologique.
50 En donnant la possibilité de visualiser chacun des thèmes sur des facteurs hiérarchisés, l’ACT facilite la sélection des variables prédictives utiles. En cela, l’ACT s’oppose radicalement aux méthodes de sélection automatiques. En effet, ces dernières : 1) n’opèrent aucune distinction conceptuelle entre les prédicteurs ; 2) opèrent de fait une sélection au sein de variables très redondantes, pouvant évincer, pour quelques décimales du critère d’ajustement, la variable la plus pertinente au profit d’une autre qui l’est beaucoup moins ; 3) se substituent à l’analyste dans son rôle de décideur. L’ACT, en respectant le modèle conceptuel, en réduisant la dimension du problème sans évincer aucune variable des représentations graphiques, remet l’analyste au centre de la décision.
51 Malheureusement, l’ACT présentée ci-dessus n’est pas directement utilisable sur les données complexes telles que les données biographiques, caractérisées par des variations temporelles et des interruptions d’observation. Nous allons donc devoir introduire une étape intermédiaire.
III – Estimation d’un modèle linéaire généralisé
1 – Le modèle
52 Nous considérons ici le cas d’une variable y observée qui n’est pas une variable continue, à expliquer à l’aide de R groupes explicatifs X 1, …, Xr , … XR . Pour simplifier, chaque groupe Xr est initialement supposé être structuré autour d’une unique variable latente Fr . La modélisation linéaire directe de y en fonction des variables latentes continues Fr n’est pas adaptée. Nous allons donc utiliser une modélisation linéaire généralisée de y en fonction de X. On suppose ainsi que y suit une loi P ?, où ? est un paramètre de la forme g(Xb), g étant une fonction connue. Le vecteur de coefficients b étant inconnu, la variable W = Xb utilisée par cette modélisation est inobservée, donc latente. La régression linéaire généralisée estime classiquement W par maximisation de la vraisemblance du modèle. Nous allons enfin supposer que W est elle-même partiellement fonction des variables latentes Fr des Xr matérialisant des structures fortes de ces groupes. Le modèle conceptuel que nous utilisons est schématisé sur la figure 8.
Schéma conceptuel du couplage entre l’ACT et la modélisation linéaire généralisée
Schéma conceptuel du couplage entre l’ACT et la modélisation linéaire généralisée
2 – La méthode d’estimation
53 Si l’on ne désire pas obtenir d’intervalles de confiance ou tester des hypothèses sur les effets, on pourra se contenter d’une estimation empirique. Dans le cas contraire, certaines modifications devront être apportées pour que la démarche soit correcte. En effet, il est primordial de ne pas utiliser les facteurs estimés empiriquement comme variables exogènes d’un modèle de y qu’on voudrait estimer par maximisation de la vraisemblance : le calcul de ces facteurs faisant intervenir la variable endogène y, ils ne sont plus exogènes, et toute méthode inférentielle les considérant comme tels est caduque [8].
a – Approche empirique
54
Les étapes sont les suivantes :
- On estime la variable latente W par maximisation de la vraisemblance du modèle expliquant y en fonction de X.
- On estime ensuite les Fr en utilisant W comme variable dépendante dans l’ACT1.
- On détermine le nombre p de facteurs explicatifs utiles. Ceci peut être fait en examinant la part de variance de W expliquée par les facteurs retenus.
- On interprète les facteurs.
- on utilise, pour la maximisation de vraisemblance de l’étape 1, toutes les variables prédictives disponibles. Ce faisant, on exploite au mieux le potentiel de prédiction de ces variables : l’espace qu’elles engendrent est utilisé dans son intégralité, et toutes ses dimensions sont mises à contribution avec une égale importance a priori, qu’il s’agisse de dimensions structurellement fortes ou de dimensions résiduelles ;
- si l’on prend en compte la totalité des facteurs, lors de l’étape 3, on retrouve l’estimateur du maximum de vraisemblance de Winitialement calculé ;
- dans le cas particulier où y est une variable continue suivant un modèle linéaire gaussien classique en fonction de X, la procédure que nous proposons ici est identique à l’ACT1. En effet, l’estimation de W (première étape) fournit la régression y de y sur X. Or il est très facile de voir, à la lecture de son algorithme, que l’ACT1 de y (étape suivante) est équivalente à celle de y;
- une autre extension de l’ACT1 à un modèle linéaire généralisé est possible. Elle consiste simplement, dans l’étape courante, à remplacer la régression de y sur {Xr ,F-r (k–1)} par sa régression généralisée (logistique, Cox…). La composante ?r est égale au Xr r obtenu dans cette régression. Si cette extension paraît plus directe, c’est que la variable latente W y est rendue implicite. Cependant, cette méthode est plus coûteuse en temps de calcul, car elle doit maximiser une vraisemblance à chaque itération.
b – Approche inférentielle
55
On peut construire un modèle permettant l’inférence (calcul d’intervalles de confiance et tests) à la suite de l’étape 4. Si l’on désire spécifier un modèle fondé sur une sélection de variables observées, on procèdera selon les étapes suivantes :
- On sélectionne un sous-ensemble des variables explicatives originelles représentant bien l’ensemble des facteurs, au sens où ces variables sont à la fois corrélées aux facteurs et illustratives de l’interprétation substantielle qu’on a pu faire de ceux-ci.
- On procède à l’estimation du maximum de vraisemblance du modèle limité aux variables explicatives sélectionnées.
-
On sélectionne, pour chaque facteur (ou chaque direction importante d’un plan explicatif), un sous-ensemble de variables explicatives originelles qui lui soient fortement corrélées et illustratives de l’interprétation substantielle qu’on a pu en faire.
On procède à l’ACP séparée de chacun de ces sous-ensembles et l’on retient la première composante principale comme étant celle qui estime la variable latente sous-jacente à chaque sous-ensemble. - On procède à l’estimation du maximum de vraisemblance du modèle fondé sur ces composantes principales. Bien que leur mode de sélection fasse entrer un peu d’endogénéité dans les variables observées retenues, le calcul des composantes principales ne fait pas intervenir y. Par conséquent, l’inférence fondée sur ce modèle peut être considérée comme légitime.
3 – Application à l’analyse de durée
56 Nous allons modéliser la survenue d’un événement E chez un individu en fonction des caractéristiques de celui-ci.
a – Le modèle de Cox
57 Le risque de connaître l’événement à l’instant t est une fonction exponentielle des caractéristiques xt de l’individu à cet instant :
59 La vraisemblance de la trajectoire d’un individu pour lequel l’événement E survient à l’instant tE est :
61 Considérons à présent un échantillon d’individus indépendants. L’indice utilisé pour repérer les individus est i. La vraisemblance du modèle appliqué à l’échantillon est le produit des vraisemblances individuelles:
63 Formellement, ceci équivaut à une vraisemblance d’échantillon dont les observations seraient, non les individus eux-mêmes, mais les couples (individu, date d’observation) : (i,t). Un individu donne lieu à autant d’observations qu’il y a de dates, et le modèle ci-dessus les rend formellement indépendantes, ce qui permet de traiter les caractéristiques variant dans le temps. À chacun des couples (i,t) correspond une valeur des déterminants xit du risque, donc une valeur de la variable latente W = b?xit et une valeur du risque : . De même, les facteurs Fr que nous calculerons par la suite auront une valeur pour chaque couple (i,t).
b – ACT après régression de Cox
64 On procède à la régression de Cox en utilisant toutes les caractéristiques disponibles. La gestion des sorties d’observation et la modélisation de la dynamique s’effectuent à ce stade. La régression de Cox fournit une estimation de W notée ?xit pour l’individu i à la date t. Cette estimation repose autant sur les dimensions fortes que sur les dimensions résiduelles de l’espace des variables explicatives.
65 On procède ensuite à l’ACT de cette estimation sur les groupes explicatifs, pour extraire les variables explicatives latentes. Cette ACT prend pour observation les couples (individus, date d’observation) : (i,t).
66 Nous allons maintenant appliquer cette méthode à l’analyse du divorce des hommes à Dakar.
IV – Analyse du divorce à Dakar
1 – Le cadre d’analyse
67 Au Sénégal, comme d’ailleurs plus généralement en Afrique, on ignore presque tout de l’évolution de la fréquence du divorce et de ses déterminants (Kaufmann et al., 1988). La faiblesse des connaissances sur l’instabilité des mariages en Afrique limite les analyses de l’évolution du phénomène au cours du temps (Smith et al.,1984 ; Hertrich et Locoh, 1999). L’activité professionnelle des femmes apparaît comme le facteur exerçant l’influence la plus importante sur le divorce. Elle est associée à une possibilité d’indépendance financière de la femme qui est alors susceptible de s’assumer économiquement après un éventuel divorce (McDonald, 1985 ; Burnham, 1987).
68 Les données du moment issues d’une enquête ou d’un recensement sous-estiment la fréquence des divorces. En effet, que ce soit dans les recensements ou les enquêtes, seul le statut matrimonial au moment de l’étude est demandé ; parfois on connaît également le nombre d’unions contractées par l’individu sans toutefois savoir si les remariages sont consécutifs à un veuvage ou à un divorce. Dans les sociétés qui pratiquent la polygamie, les études concernant les hommes se focalisent davantage sur le nombre d’épouses que sur le nombre de divorces (Antoine et al., 1998). Les ruptures d’union sont souvent masquées par les remariages rapides. Au Sénégal, par exemple, en 1986, la proportion de femmes divorcées était de 3,8 % à 20-24 ans et de 5,4 % à 35-39 ans, cette proportion allant en diminuant aux âges plus élevés (ministère de l’Économie, des Finances et du Plan du Sénégal et DHS, 1988). Ces proportions étaient sensiblement inférieures en 1992-1993, soit respectivement 3,5 % et 4,7 % aux mêmes âges (ministère de l’Économie, des Finances et du Plan du Sénégal et DHS, 1994). Elles masquent totalement l’ampleur du phénomène. Ainsi selon une enquête effectuée à Dakar en 2001, à 40-44 ans, environ 4 % des hommes déclarent avoir le statut de divorcé [9], alors que 22 % ont déjà connu un divorce à l’âge de 40 ans [10] (Antoine et Fall, 2002). D’après nos données biographiques, près d’une union sur trois se termine par un divorce à Dakar (Antoine et Dial, 2003).
69 Le divorce, parce qu’il remet en cause les alliances entre familles nouées lors du mariage, apparaît comme un désordre dont on évite de parler (Locoh et Thiriat, 1995). Les familles s’impliquent dans le mariage comme dans le divorce, et parfois la décision échappe aux individus. Les pressions familiales pour faire obstacle au divorce sont nombreuses. En fait, le divorce est souvent perçu par la parenté comme un échec : il représente généralement une rupture entre les familles des deux conjoints, et celles-ci peuvent tenter d’y faire obstacle. Néanmoins, l’ingérence de la belle-famille dans la vie du couple est souvent invoquée par les femmes comme une des raisons qui les ont poussées à se séparer de leur conjoint.
70 Au Sénégal, avant l’instauration du code de la famille en 1972, la séparation était légalement uniquement du ressort de l’homme : il pouvait, en effet, répudier sa femme devant deux témoins adultes. La loi de 1972 a tenté de contrebalancer le déséquilibre qu’instaure la répudiation, acte unilatéral dont l’initiative revient uniquement à l’homme, en permettant à la femme de demander le divorce devant les tribunaux. Malgré ces avancées, dans la grande majorité des cas, le divorce continue de se pratiquer en dehors de la législation : moins de 20 % des divorces [11] font l’objet d’une procédure judiciaire. Le mariage civil est rare, c’est avant tout le mariage religieux qui compte [12]. Traditionnellement, la femme peut demander le divorce [13] à son mari (nâan baat) ; cette forme de divorce est appelée tagoo en Wolof et nettement distinguée de la répudiation (fase) (Diop, 1985).
71 Toutefois, certaines femmes semblent prendre conscience des droits acquis et l’on note un accroissement des divorces à l’initiative des femmes : selon notre enquête, elles sont à l’origine de 80 % des divorces, phénomène déjà souligné par Diop (1985). En effet, l’accroissement des divorces à l’initiative des femmes semble témoigner d’un changement social. Banni autant par l’islam que par la société, le divorce est malgré tout devenu un phénomène courant et banalisé (Dial, 2001). Il est non seulement fréquent, mais aussi relativement rapide : une part importante des divorces se produisent au cours des cinq premières années du mariage (Antoine et Dial, 2003). La primauté du mariage pour les femmes à Dakar peut pousser à des choix parfois précipités. Le phénomène est d’autant plus mal connu qu’il est mal mesuré.
a – Les données biographiques
72 L’analyse s’appuie sur des données provenant d’une enquête biographique récente réalisée à Dakar en 2001 [14]. Trois cohortes sont prises en considération : les personnes âgées respectivement de 25-34 ans, 35-44 ans et 45-59 ans au moment de l’enquête [15]. L’enquête à Dakar a permis de recueillir 1 290 biographies d’hommes et de femmes, qui retracent la vie des individus jusqu’à la date de l’enquête. On peut donc connaître les caractéristiques de l’individu telles que sa profession, son état matrimonial, le nombre d’enfants, etc., tout au long de sa vie.
73 Dans l’exemple particulier traité ici, nous nous sommes intéressés à l’itinéraire matrimonial d’hommes âgés de 25 à 44 ans au moment de l’enquête [16]. Sont prises en considération les premières unions de 137 hommes qui se sont mariés à Dakar. Toutes ces unions ne se sont pas soldées par un divorce au moment de l’enquête (23 couples se sont déjà séparés), et ces dernières restent soumises au risque de divorce [17]. On pourrait craindre que l’effectif des personnes comme celui des événements s’avèrent insuffisants pour entreprendre une analyse. En l’absence de la méthode ACT, nous ne l’aurions certainement pas fait. Précisons que notre fichier comprend autant de lignes que d’épisodes (soit 546) ; par épisode on entend chaque changement d’état [18] vécu par un individu depuis le début de son union. La dernière colonne du tableau 1 donne la répartition des individus statistiques (ou des hommes-mois en cas de changement d’état au cours du temps [19]) selon les différentes modalités des variables prises en compte dans l’analyse.
Estimation des effets des déterminants potentiels du divorce des hommes à Dakar (résultats de la régression de Cox)
Estimation des effets des déterminants potentiels du divorce des hommes à Dakar (résultats de la régression de Cox)
b – Les hypothèses et la conceptualisation
74 Diverses questions concernant le divorce se posent. On peut par exemple se demander si, pour les hommes, l’union avec une seconde femme n’est pas une façon de provoquer le départ de la première sans avoir à évoquer le divorce avec elle. L’arrivée d’une seconde épouse n’est pas une cause légitime de divorce, mais il semble bien qu’en milieu urbain les premières épouses de polygames divorcent plus souvent que les secondes. Une des causes de divorce les plus courantes [20] reste le défaut d’entretien de la femme par son mari (Diop, 1985 ; Dial, 2001). Du fait de la crise économique, l’homme éprouve de plus en plus de difficultés à subvenir correctement aux besoins du ménage dont il a la charge.
75 Aborder la question du divorce, c’est pénétrer l’intimité du couple et évoquer un événement douloureux. La plupart des enquêtés sont réticents à parler d’une situation encore mal acceptée par la société. Même si certains aspects du vécu du divorce restent non dits, nous pouvons essayer de dépasser les cas individuels pour tenter d’appréhender certains facteurs structurels et mettre en évidence les composantes qui favorisent ou non le divorce dans cette génération. Pour ce faire, nous avons utilisé un modèle de Cox [21] qui intègre les facteurs influant sur la durée écoulée entre le début de l’union (c’est-à-dire sa célébration à la mosquée) et l’éventuelle séparation [22].
76 Pour entreprendre cette analyse, nous disposons essentiellement de caractéristiques concernant la personne enquêtée. En effet, il s’avère difficile d’obtenir des informations précises sur l’épouse, a fortiori quand elle ne vit plus avec l’enquêté. Plusieurs facteurs concernant l’homme sont pris en considération (voir la figure 1) ; nous les avons classés en 4 catégories : facteurs culturels, niveau d’instruction, facteurs économiques, facteurs démographiques et matrimoniaux.
77 Les facteurs culturels – facteurs liés à l’environnement social de la personne – recouvrent l’ethnie [23], la religion (en tenant compte des différentes confréries musulmanes [24]), le lieu de naissance et le milieu de socialisation (c’est-à-dire le lieu où l’enfant a passé la majeure partie de son enfance). Différentes questions concernent ce groupe de variables. Les différences de position sur le divorce selon les religions [25] conduisent-elles à des propensions différentes au divorce ? Lieu de naissance et lieu de socialisation sont des marqueurs du milieu dans lequel la personne a passé sa jeunesse : les jeunes socialisés à Dakar ont-ils des comportements différents de ceux des ruraux arrivés plus tardivement en ville ?
78 Le second groupe de facteurs concerne des facteurs liés à l’éducation donnée par les parents ou l’école. L’éducation dépend de l’origine sociale des individus et nous en prenons pour proxy le niveau d’instruction atteint par chacun des parents. On retient également le niveau d’instruction de l’individu, qui est un marqueur d’un certain degré d’indépendance par rapport aux traditions.
79 Le troisième groupe recouvre des variables qui caractérisent la situation socio-économique, à savoir l’activité de l’homme, le type d’emploi occupé par la première épouse au moment du mariage et la situation de dépendance en termes de logement.
80 Enfin, nous retenons des variables démographiques qui concernent la descendance issue de l’union et les caractéristiques de l’union comme l’âge au mariage, le choix du conjoint, l’existence d’un lien de parenté avec le conjoint et l’expérience antérieure du divorce par le conjoint. Ces différents facteurs peuvent influer ou non sur le divorce. La précocité des unions ou l’absence d’enfants sont-ils des facteurs favorisant le divorce ? La stabilité de l’union est-elle plus assurée quand un lien de parenté relie les conjoints ? Le statut de l’union peut aussi changer au cours du temps : le mari peut prendre une seconde épouse et devenir polygame. Dans le modèle, ce changement de statut matrimonial est pris en considération ; l’historique des unions permet de connaître la date d’arrivée d’une nouvelle épouse et de noter ainsi le passage de la monogamie à la polygamie.
2 – L’analyse statistique
81 L’analyse a été effectuée avec le logiciel STATA, et utilise le programme de l’ACT1 développé par Xavier Bry. Les étapes sont décrites ci-dessous.
a – Estimation de la variable latente W
82 On procède à la régression de Cox usuelle utilisant toutes les variables explicatives possibles. Les résultats sont donnés dans le tableau 1. La variable latente W est estimée par le X fourni par cette régression.
83 Très peu de variables explicatives ont un effet statistiquement significatif sur le risque. Si l’on ne retient que les modalités interprétables, il n’y en a que trois [26] qui influencent nettement le risque de divorcer rapidement : être de religion Mouride, ne pas avoir de logement autonome et être apparenté du côté maternel avec son épouse. Le mariage chez les Mourides est peut-être plus instable que chez les autres musulmans. Dans certains cas, c’est le marabout qui célèbre l’union et quelquefois sans véritable concertation avec les intéressés.
84 Le principal facteur qui favorise le divorce est d’ordre économique. Lorsque le nouveau noyau familial constitué n’acquiert pas une autonomie de logement et reste dépendant de la parenté pour être logé, les risques de divorce sont alors nettement accrus. L’incapacité du mari à assurer un logement autonome à son couple accroît la rapidité du divorce. Cette incapacité renvoie au défaut d’entretien, cause de divorce souvent évoquée. La crise économique qui perdure fait qu’aujourd’hui, les jeunes couples s’installent dans la maison familiale du mari et qu’ils sont alors contraints de vivre au quotidien les problèmes que pose la cohabitation. Les relations entre la femme et sa belle-famille sont très complexes d’une manière générale. Ces couples sont plus exposés au divorce que les autres.
85 L’existence d’un lien de parenté entre les conjoints marque une union où la famille au sens large s’est investie, et donc a priori des unions plus stables. Les unions avec un parent côté maternel font en général l’objet d’une vigilance plus grande.
86 Notre modèle comprend de nombreuses variables, dont plusieurs sont redondantes. Compte tenu des multicolinéarités qui en découlent, on ne peut pas savoir à ce stade si, outre les trois facteurs mis en évidence, d’autres variables ne jouent pas un rôle explicatif important, dont l’effet serait masqué par les multicolinéarités [27].
87 L’existence éventuelle de multicolinéarités impose le recours à un outil permettant de les repérer, de les prendre en compte, et de sélectionner les variables les plus utiles à la modélisation. Nous allons employer successivement trois méthodes. La première (régression ACP) ne s’appuie sur aucun modèle conceptuel pour déterminer les plans factoriels ; la deuxième (régression PLS) prend en compte l’existence d’un schéma explicatif, mais sans en distinguer les thèmes ; la troisième (ACT) intègre la totalité du schéma explicatif du divorce, en tenant compte des quatre thèmes présentés plus haut.
b – Régression de W = X sur les composantes principales de X
88 L’ACP de X estime des variables explicatives latentes sans utiliser de modèle thématique. Les deux premiers facteurs captent 16,79 % de l’inertie ; les 10 premiers facteurs, 53 % et il faut prendre les 20 premiers pour capter 79,6 % de l’inertie. La décroissance des valeurs propres est faible, ce qui dénote un nuage peu structuré (pas de faisceaux de corrélation très importants). Les deux premières valeurs propres sont très proches (8,63 % et 8,06 % d’inertie), ce qui nécessite d’interpréter le plan factoriel (1,2) globalement plutôt que les facteurs isolément. Les deux premières composantes principales de X fournissent un plan mettant en relief l’importance des lieux de naissance et de socialisation.
89 La régression de X sur les facteurs donne les résultats suivants :
90 Sur les 2 premiers facteurs, le coefficient de corrélation R2 est égal à 0,007 ; sur les 10 premiers facteurs, R2 = 0,512.
91 Les facteurs ayant le plus de pouvoir explicatif sont, dans l’ordre décroissant, les 9e, 20e et 5e. Il s’agit de facteurs d’ordre élevé, donc structurellement faibles, très mal illustrés par les variables observées.
92 Les résultats de cette méthode s’avèrent pratiquement inutilisables.
c – Régression PLS de W = X sur les variables de X
93 La régression PLS est, contrairement à l’ACP, orientée vers l’explication. On constate immédiatement que cette orientation améliore considérablement le pouvoir prédictif des dimensions trouvées. La régression de X sur les facteurs PLS donne en effet les résultats suivants:
94 Sur les deux premiers facteurs, le coefficient de corrélation R2 est égal à 0,945 ; sur les quatre premiers facteurs, R2 est égal à 0,987.
95 On a constaté sur les graphiques initiaux que les axes étaient médiocrement illustrés par les variables observées. Le brouillage thématique a pour conséquence un ensemble peu lisible. Toutefois, on voit émerger, en périphérie de nuage, quelques variables telles que : Mouride, logement autonome, autre ethnie, passage à la polygamie, niveau d’instruction d’ego et de ses parents.
96 Par manque de hiérarchisation thématique, cette méthode fournit un résultat encore décevant ; certes, X est très bien représentée sur les premiers facteurs, mais ceux-ci sont en trop faible rapport avec les variables explicatives observées.
d – L’analyse en composantes thématiques
97 On a retenu les quatre thèmes explicatifs présentés précédemment :
- X1 = facteurs culturels ;
- X2 = facteurs d’instruction ;
- X3 = facteurs économiques ;
- X4 = facteurs démographiques et matrimoniaux.
• Calcul des facteurs
98 On calcule deux facteurs par groupe thématique. Le facteur j du groupe i est appelé XiFj. Les facteurs sont centrés réduits. On régresse W = X sur l’ensemble de ces facteurs, ce qui permet d’écrire W comme une combinaison linéaire de ces facteurs, pondérés par des coefficients. Les résultats de la régression sont présentés dans le tableau 2 (R2 = 0,96).
Coefficients de régression de W sur l’ensemble des facteurs fournis par l’ACT
Coefficients de régression de W sur l’ensemble des facteurs fournis par l’ACT
99 Les facteurs de rang 2 ayant des coefficients systématiquement beaucoup plus faibles (ils sont environ deux fois moins élevés) que leurs homologues de rang 1, on procède à la régression sur ces derniers seulement. Les résultats sont retracés dans le tableau 3 (R2 = 0,86).
Coefficients de régression de W sur les facteurs de rang 1 de l’ACT
Coefficients de régression de W sur les facteurs de rang 1 de l’ACT
100 On parvient donc à capter 86 % de la variable W sur les quatre facteurs de rang 1. Cette performance est moins bonne que celle de la régression PLS, mais cela n’a rien de surprenant, car les facteurs de l’ACT sont thématiquement contraints. Mais cette contrainte, qui supprime le brouillage thématique, devrait donner des facteurs d’interprétation plus clairs.
101 On note que les facteurs ayant les pouvoirs explicatifs les plus faibles sont ceux des groupes 2 (niveau d’instruction) et 4 (démographique et matrimonial).
• Examen des groupes dans les plans thématiques
102 Les facteurs 1 et 2 de chaque groupe fournissent les plans des figures 9 à 12 (ci-dessous et pages suivantes) [28] :
Premier plan factoriel du groupe 1 (facteurs culturels)
Premier plan factoriel du groupe 1 (facteurs culturels)
Les variables illustrant bien ce plan sont : mouride, pour l’axe 1; lieu de naissance et lieu de socialisation, pour l’ensemble du plan (configuration triangulaire).La gradation urbaine (rural–ville de province–capitale) est reproduite par le facteur 2 et non par le premier. Or, ce second facteur a un pouvoir explicatif plus faible que le premier.
Premier plan factoriel du groupe 2 (facteurs d’instruction)
Premier plan factoriel du groupe 2 (facteurs d’instruction)
Le premier facteur reproduit la hiérarchie des niveaux de formation (non scolarisé, primaire, secondaire ou plus), tant pour ego que pour ses parents. Le second – au pouvoir explicatif nettement moins important – distingue les personnes non scolarisées des personnes peu scolarisées. Notons au passage la forte reproduction sociale : ego a toutes les chances d’avoir le même niveau d’instruction que son père et sa mère.Premier plan factoriel du groupe 3 (facteurs économiques)
Premier plan factoriel du groupe 3 (facteurs économiques)
L’axe 1 met en relief l’autonomie en matière de logement, facteur particulièrement fort du divorce qui reflète certainement l’importance des revenus du mari. L’axe 2, secondaire, fait ressortir trois professions de l’épouse (domestique, employée, vendeuse), mais il est médiocrement corrélé avec ces trois modalités.Premier plan factoriel du groupe 4 (facteurs démographiques et matrimoniaux)
Premier plan factoriel du groupe 4 (facteurs démographiques et matrimoniaux)
Le premier plan thématique est mal illustré par les variables de ce quatrième groupe. Ce groupe ne possède pas de structures fortes ayant un pouvoir explicatif important.• Sélection des prédicteurs
103 Les pouvoirs explicatifs globaux des groupes sont facilement mesurés par les coefficients de régression de leurs facteurs. Le fait de distinguer différents thèmes clarifie très nettement le rôle des groupes. Les plans thématiques sont bien illustrés (à l’exception du groupe 4 qui concerne les facteurs démographiques et familiaux) et donc clairement interprétables.
104 Il faut éliminer les facteurs de rang 2 des groupes de faible pouvoir prédictif, lorsque ces facteurs n’ont pas d’interprétation claire (X2F2 et X4F2). Le facteur X1F2 est également équivoque et a un faible pouvoir prédictif, mais il fait intervenir des modalités de variables présentes sur le facteur X1F1 (lieux de naissance et de socialisation). On peut donc éventuellement le conserver, à titre transitoire. Le facteur X3F2 est faiblement prédictif, mais exclusivement illustré par les modalités de la profession de l’épouse. On conserve donc provisoirement ce facteur.
105 Concernant les facteurs de rang 1, on les conserve tous, mais avec des illusions modérées sur ceux qui n’ont pas un grand pouvoir prédictif et/ou qui sont d’interprétation ambiguë car mal illustrés ou influencés par trop de variables. Ces derniers ne nous indiquent pas avec netteté le petit nombre de modalités à inclure dans un modèle parcimonieux et efficace.
106 Ici, on est conduit à conserver les facteurs suivants (accompagnés des modalités qui leur sont liées) :
- X1F1 : il concerne à la fois la religion (mouride, aut_musu) et l’origine urbaine, (ln_urbain/se_urbain) ;
- X1F2 : il oppose l’origine dakaroise (ln_dakar/se_dakar) à l’origine rurale (ln_rural/se_rural) ;
- X2F1 : toutes les modalités concernant le niveau scolaire (voir tableau 4) ;
- X3F1 : la résidence ou non dans un logement autonome (jamloau, logauto).
- X3F2 : l’emploi exercé par l’épouse (cfemploy, cfdomest, cfvente) ;
- X4F1 : les caractéristiques familiales (nombre d’enfants, âge au mariage, nonpart).
Pondérations des variables dans le niveau scolaire mesuré par niscola
Pondérations des variables dans le niveau scolaire mesuré par niscola
107 Concernant X2F1 (premier facteur du groupe 2), nous avons vu qu’il reproduit la hiérarchie des niveaux de formation en utilisant de façon très équilibrée toutes les modalités de niveau scolaire; il est donc intéressant de le synthétiser en effectuant une ACP sur ces modalités, afin de l’utiliser dans le modèle final en tant que variable latente exogène. On obtient ainsi la variable niscola (combinaison linéaire des variables de niveau scolaire affectées des coefficients présentés dans le tableau 4) qui permet d’avoir une gradation du « patrimoine » scolaire de l’individu.
108 On peut procéder de même avec les lieux de naissance et de socialisation, afin d’estimer une variable latente de ruralité/urbanisation. On obtient pour celle-ci (dénommée ruralité) un jeu de coefficients fournis dans le tableau 5.
Pondérations des lieux dans la variable de ruralité
Pondérations des lieux dans la variable de ruralité
109 Concernant le nombre d’enfants et l’âge au mariage, on a intérêt à reconvertir ces variables en variables quantitatives, ou au moins ordinales, puisque l’axe X4F1 reproduit à peu près leur gradation. Cela permettra une estimation plus précise de l’effet éventuel. Ces deux variables apparaissant liées, il est vraisemblable qu’elles ne peuvent pas coexister dans le même modèle et qu’il faille donc en éliminer une. On retiendra celle dont le rôle causal est le plus interprétable, ou, à défaut, celle qui fournit le meilleur ajustement.
e – Modèle de Cox final
110 On introduit d’abord dans le modèle économétrique l’ensemble des prédicteurs retenus ci-dessus. Puis on élimine graduellement ceux qui n’ont pas d’effet probant. Le tri est beaucoup plus facile que si l’on commence avec toutes les variables disponibles. Le tableau 6 récapitule les variables finalement retenues, c’est-à-dire celles qui ont un effet significatif à 5%.
Effets des déterminants du divorce sélectionnés après l’ACT, (résultats de la régression de Cox du modèle final)
Effets des déterminants du divorce sélectionnés après l’ACT, (résultats de la régression de Cox du modèle final)
111 Ce modèle est plus riche d’enseignements que le modèle initial (tableau 1). Aux trois facteurs déjà mis en évidence précédemment (la religion mouride, l’absence de logement autonome et le lien de parenté avec le conjoint) s’ajoutent des facteurs favorisant le divorce comme le fait que l’épouse exerce une activité salariée, d’être allé à l’école, et de se marier plus tardivement. L’exercice d’une activité salariée de la femme semble favoriser le divorce : les femmes qui acquièrent une certaine indépendance économique divorcent plus rapidement que les femmes en situation de précarité. L’effet du lien de parenté avec le conjoint est plus facilement interprétable que dans le tableau 1, mettant simplement en opposition l’existence ou non d’un lien de parenté, l’absence de lien facilitant le divorce.
112 Par ailleurs, certaines de nos hypothèses ne sont pas confirmées. Le nombre d’enfants (notamment l’absence de descendance) ne semble pas constituer un facteur de divorce, contrairement à l’hypothèse selon laquelle l’infécondité de la femme serait considérée comme un facteur favorisant le divorce. Le modèle n’indique pas non plus que la polygamie joue un rôle [29]. Il est vrai que nous étudions le phénomène auprès d’hommes encore jeunes, mariés dans l’ensemble depuis peu de temps et dont seul un très petit nombre est concerné par cette pratique.
Conclusion : tout voir et retenir l’essentiel
113 La méthodologie présentée ici occupe une position intermédiaire entre démarche exploratoire et démarche « confirmatoire ». Si, à l’instar de cette dernière, elle requiert la spécification d’un schéma explicatif conceptuel, celui-ci peut rester très global, et peu directif sur le plan de la mesure.
114 Le fait de devoir spécifier un modèle conceptuel canalise le chercheur de l’empirisme vers l’explication, ce qui n’est pas vraiment le cas avec les méthodes plus classiques d’analyse des données.
115 Le fait de conserver quasiment jusqu’à la fin les multiples mesures relatives à un concept présente deux avantages : primo, on donne à chacune la possibilité de s’exprimer dans le cadre du modèle explicatif (malgré les redondances entre elles), ce qui permet la sélection des meilleures ; secundo, l’éventuelle redondance entre diverses mesures relatives à un même concept permet de représenter celui-ci de façon plus robuste à l’aide de facteurs synthétiques. La mesure des concepts est ainsi « débruitée » et l’effet statistique correspondant dans le modèle estimé devient plus fiable. À cet égard, l’exemple du niveau d’instruction est particulièrement parlant (cf. tableau 4).
116 Pour conclure, la démarche proposée nous a permis d’éviter de longs tâtonnements dans le choix des variables explicatives lors de la construction du modèle statistique. La participation initiale de toutes les variables candidates prémunit contre l’omission d’une dimension importante. En outre, la méthode permet l’élimination aisée des redondances. Elle nous a ainsi permis d’aboutir à un modèle plus riche et plus fiable (tableau 6) que le modèle initial (tableau 1), et ce, pour étudier un événement relativement rare à partir d’un échantillon de taille modeste pour ce type d’analyse.
Bibliographie
RÉFÉRENCES
- Antoine Philippe, 2002, « Les complexités de la nuptialité : de la précocité des unions féminines à la polygamie masculine en Afrique », in G. Caselli, J. Vallin, G. Wunsch (dir.), Démographie : analyse et synthèses. vol. II–Les déterminants de la fécondité, Paris, Ined (coll. Manuels), p. 75-102.
- Antoine Philippe, Djiré Mamadou, Nanitelamio Jeanne, 1998, « Au cœur des relations hommes-femmes : polygamie et divorce », in P. Antoine, D. Ouédraogo, V. Piché (éd.), Trois générations de citadins au Sahel,Paris, L’Harmattan, p. 147-180.
- Antoine Philippe, Abdou Salam Fall (dir.), 2002, Crise, passage à l’âge adulte et devenir de la famille dans les classes moyennes et pauvres à Dakar, rapport d’étape pour le Codesria, IRD-Ifan, Dakar, 118 p + 22 p annexes.
- Antoine Philippe, Dial Fatou Binetou, 2003, « Mariage, divorce et remariage à Dakar et Lomé », Journées scientifiques de l’AUF, Familles du Nord, Familles du Sud, Marseille 23-26 juin 2003, 22 p. (à paraître).
- Bry Xavier, 1994, Analyses Factorielles Simples, Economica Poche, 112 p.
- Bry Xavier, 2001a, « Analyses Discriminantes Régularisées via la régression PLS et l’Analyse en Résultantes Covariantes », MODULAD, n° 28, p. 27-61.
- Bry Xavier, 2001b, « Une autre approche de l’analyse factorielle : l’Analyse en Résultantes Covariantes, RSA, 49(3), p. 5-38.
- Bry Xavier, 2003, « Une méthode d’estimation empirique d’un modèle à variables latentes : l’Analyse en Composantes Thématiques », RSA, 51(2), p. 5-45.
- Bry Xavier, 2004, « Estimation empirique d’un modèle à variables latentes comportant des interactions », RSA, 52(3) (à paraître).
- Burnham Philip, 1987, « Changing themes in the analysis of african marriage », in D. Parkin, D. Nyamwaya (éd.), Transformations of African Marriage, Manchester, Manchester University Press (International African Seminars, New Series, n° 3), p 37-54.
- Cazes Pierre, 1997, « Adaptation de la régression PLS au cas de la régression après analyse des correspondances multiples », RSA, XLV(2), p. 89-99.
- De Jong Sijmen, 1995, « PLS shrinks », Journal of Chemometrics, vol. 9, p. 323-326.
- Dial Fatou Binetou, 2001, « Le divorce, source de promotion pour la femme ?. L’exemple des femmes divorcées de Dakar et de SaintLouis (Sénégal) », in T. Locoh, K. Nguessan, P. MakinwaAdebusoye (éd.), Systèmes de genre et questions de population en Afrique. Résistances et innovations, Dakar, UEPA/Paris, INED, 15 p. (à paraître).
- Diop Abdoulaye Bara, 1985, La famille wolof : tradition et changement, Paris, Karthala, 262 p.
- Gould Stephen J., 1983, La mal-mesure de l’Homme, Ramsay.
- Hertrich Véronique, Locoh Thérèse, 1999, Rapports de genre, formation et dissolution des unions dans les pays en développement, Liège, UIESP (Gender in population series), 46 p.
- Kaufman Georgia, Lesthaeghe Ron, Meekers Dominique, 1988, « Les caractéristiques et tendances du mariage », in D. Tabutin (éd.), Population et sociétés en Afrique au sud du Sahara, p. 217-248.
- Lebart Ludovic, Morineau Alain, Piron Marie, 1995, Statistique exploratoire multidimensionnelle, Dunod.
- Locoh Thérèse, Thiriat Marie-Paule, 1995, « Divorce et remariage des femmes en Afrique de l’Ouest. Le cas du Togo », Population,50(1), p. 61-94.
- Mcdonald Peter, 1985, « Social organisation and nuptiality in developing countries », in J. Cleland, J. Hobcraft (éd.), Reproductive Change in Developing Countries,Oxford, Oxford University Press, p. 87-114.
- Ministère de L’économie, des Finances et du Plan (Direction de la prévision et de la statistique), 1988, Enquête démographique et de santé au Sénégal 1986, Dakar, DHS/Macro International, 173 p.
- Ministère de L’économie, des Finances et du Plan (Direction de la prévision et de la statistique), 1994, Enquête démographique et de santé au Sénégal 1992-93 (EDS II). Dakar; Calverton, DHS/Macro International, 284 p.
- Smith David P., Carrasco Enrique, Mcdonald Peter, 1984, Marriage Dissolution and Remarriage, Voorburg, International Statistical Institute (World Fertility Survey Comparative Studies, n° 34), 94 p.
- Tenenhaus Michel, 1998, La régression PLS, théorie et pratique, Technip.
- Tenenhaus Michel, 1999, « L’approche PLS », RSA, 47(2), p. 5-40.
- Wold Hermann, 1985, « Partial least squares », Encyclopedia of Statistical Sciences, John Wiley & Sons, p. 581-591.
Notes
-
[*]
Lise-Ceremade, université Paris IX-Dauphine.
-
[**]
IRD, Équipe Jéremi, UR Dial-Cipre.
-
[1]
Ce n’est toutefois pas vrai des analyses spectrales, telles que l’analyse harmonique.
-
[2]
Par exemple, la régression de Cox modélise un risque instantané (celui de la survenue d’un événement dans un avenir proche) en fonction des caractéristiques acquises de l’individu (ces caractéristiques pouvant évidemment inclure tout aspect de son passé et évoluer dans le temps).
-
[3]
L’usage de la modélisation économétrique, qui passe par le commentaire de la valeur ou même simplement du signe des paramètres estimés, requiert un minimum de stabilité de ces estimations.
-
[4]
Certaines méthodes factorielles, telles que l’analyse canonique (AC) et l’analyse factorielle discriminante (AFD), généralisent la régression multiple (Bry, 2001a). À ce titre, on pourrait être tenté de les ranger dans les méthodes « explicatives ». Nous pensons qu’il s’agirait là d’une erreur. L’analyse canonique rétablissant une totale symétrie entre les deux groupes de variables impliqués, son usage est naturellement exploratoire. L’« analyse discriminante », quant à elle, a la réputation d’« expliquer » une variable qualitative à partir d’un groupe de variables prédictives. En réalité, l’appellation « analyse discriminante » recouvre un ensemble de méthodes dont certaines méritent cette réputation, et d’autres non, selon le conditionnement qu’elles utilisent. La régression logistique, par exemple, utilise un conditionnement de la variable qualitative par les prédicteurs ; elle peut donc éventuellement prétendre expliquer la première par les seconds. L’analyse factorielle discriminante, pour sa part, est un cas particulier d’analyse canonique et n’utilise a priori aucun conditionnement. On peut proposer un critère pratique permettant de trancher facilement : une méthode « explicative » véritable, utilisant un conditionnement de la variable à expliquer, débouche immédiatement sur une formule de prédiction de cette dernière. Ce n’est le cas ni de l’AC, ni de l’AFD.
-
[5]
Une proxy ne fait que représenter, avec une certaine erreur, la variable latente associée.
-
[6]
Les facteurs n’estimant plus a priori de variables latentes, l’interprétation isolée de chacun cesse d’être indispensable – elle est d’ailleurs souvent stérile, puisque les structures fortes de X, si elles sont non décorrélées, s’écartent de ces variables latentes. Par contre, le sous-espace formé par les p premiers axes factoriels contient par définition les structures principales de X. Pour les découvrir, on examinera les premiers plans factoriels, en les mettant en rapport les uns avec les autres, pour essayer d’aller un peu au-delà de la dimension 2.
Ignorer la multidimensionnalité, d’une part, et vouloir interpréter à tout prix un facteur, d’autre part, sont des attitudes très dangereuses. On rappellera l’exemple historique de la première composante principale des tests psychométriques de Spearman, interprétée pendant 30 ans comme un « facteur d’intelligence générale » (le fameux facteur G), avant que Thurstone montre sa complète vacuité – reconnue par Spearman lui-même à la fin de sa vie – en mettant en évidence la structure bidimensionnelle profonde des tests (dimensions verbale et mathématique), et le fait que G était très médiocrement corrélé à chacune de ces deux dimensions. On pourrait en sourire si le facteur G n’avait été utilisé pour éjecter prématurément du système scolaire quantité d’enfants britanniques (« sur des bases scientifiques ») afin de faire des économies (Gould, 1983). Comme l’illustre cette affaire, il est tautologiquement irréaliste de vouloir ramener une réalité multidimensionnelle à une dimension unique. -
[7]
Un modèle est constitué de contraintes : la présence ou non de tel ou tel aspect du réel, sa quantification, et la forme de la liaison entre les différents aspects quantifiés. Selon les choix retenus, certains phénomènes seront révélés directement tandis que d’autres, occultés en tant que tels, se manifesteront « en fantôme », en transférant leur effet sur des aspects présents dans le modèle. C’est précisément là que réside le danger, lorsque l’on n’est pas conscient de ce qui est occulté.
-
[8]
En toute rigueur, les variables explicatives originelles sélectionnées sur la base de leur corrélation avec ces facteurs ne sont pas exemptes, de par leur mode de sélection, d’endogénéité, mais c’est le cas de toutes les méthodes de sélection de variables explicatives.
-
[9]
À partir du questionnaire ménage. Cette enquête a été effectuée par l’Institut fondamental d’Afrique noire (IFAN) et par l’Institut de recherche pour le développement (IRD).
-
[10]
À partir du questionnaire biographique de l’enquête IFANIRD.
-
[11]
Selon les résultats de notre enquête. La plupart des recours judiciaires se font à l’instigation des femmes.
-
[12]
Le mariage religieux est censé être enregistré par la suite à l’état civil, mais c’est loin d’être toujours le cas.
-
[13]
Il s’agit du divorce au sens large (juridique ou non).
-
[14]
Cette enquête a été réalisée à Dakar par une équipe IRD-IFAN (Antoine et Fall, 2002) grâce à un financement du CODESRIA (Conseil pour le développement de la recherche en Afrique) et de l’IRD.
-
[15]
Soit, respectivement, les générations qui sont nées en 1967-1976, en 1957-1966 et en 1942-1956. Ces générations sont donc parvenues à l’âge de fonder une famille dans des contextes fort différents.
-
[16]
Les travaux publiés jusqu’ici à partir de cette enquête concernent surtout les femmes, pour lesquelles les informations semblent plus fiables. Leur mariage étant bien plus précoce que celui des hommes (environ 10 ans d’écart d’âge), l’analyse du divorce porte également sur davantage de cas.
-
[17]
Si l’un des conjoints décède, l’observation cesse.
-
[18]
Naissance d’un enfant, changement d’activité, nouvelle résidence, etc.
-
[19]
Les variables qui varient au cours du temps sont l’activité, la descendance et la nature de l’union.
-
[20]
Parmi les autres causes de divorce, citons la difficile cohabitation avec la belle-famille ou entre co-épouses (Dial, 2001).
-
[21]
Pour plus d’explications concernant l’analyse biographique de la nuptialité, voir Antoine (2002).
-
[22]
Pour les personnes qui ne sont pas divorcées, l’observation cesse par troncature à la date de l’enquête.
-
[23]
L’ethnie Wolof est majoritaire à Dakar et ses pratiques culturelles sont de plus en plus adoptées par les autres groupes ethniques.
-
[24]
La très grande majorité de la population dakaroise est musulmane. Parmi ces musulmans, on distingue les membres des confréries Mouride et Tidiane.
-
[25]
On connaît par exemple la prohibition du divorce chez les catholiques.
-
[26]
Autre ethnie constitue une catégorie hétérogène.
-
[27]
Il y a de fortes chances par exemple qu’il y ait une corrélation entre lieu de naissance et lieu de socialisation, par exemple. Une telle redondance éventuelle ne pose aucun problème à l’ACT.
-
[28]
Sur chaque plan thématique, on a également projeté l’ensemble des variables des autres thèmes (leurs intitulés sont en italique), afin de contrôler l’absence de recouvrement trop fort entre les thèmes. Une telle multicolinéarité inter-thèmes rendrait en effet caduc le modèle thématique proposé.
-
[29]
Sur cette question voir Antoine et al., 1998.