Compte rendu

LEBART Ludovic, PINCEMIN Bénédicte et POUDAT Céline, 2019, Analyse des données textuelles, Presses de l’Université du Québec, Mesure et évaluation, 510 p.

Pages 630 à 631

Citer cet article


  • Garnier, B.
(2020). LEBART Ludovic, PINCEMIN Bénédicte et POUDAT Céline, 2019, Analyse des données textuelles, Presses de l’Université du Québec, Mesure et évaluation, 510 p. Population, . 75(4), 630-631. https://doi.org/10.3917/popu.2004.0630.

  • Garnier, Bénédicte.
« LEBART Ludovic, PINCEMIN Bénédicte et POUDAT Céline, 2019, Analyse des données textuelles, Presses de l’Université du Québec, Mesure et évaluation, 510 p. ». Population, 2020/4 Vol. 75, 2020. p.630-631. CAIRN.INFO, shs.cairn.info/revue-population-2020-4-page-630?lang=fr.

  • GARNIER, Bénédicte,
2020. LEBART Ludovic, PINCEMIN Bénédicte et POUDAT Céline, 2019, Analyse des données textuelles, Presses de l’Université du Québec, Mesure et évaluation, 510 p. Population, 2020/4 Vol. 75, p.630-631. DOI : 10.3917/popu.2004.0630. URL : https://shs.cairn.info/revue-population-2020-4-page-630?lang=fr.

https://doi.org/10.3917/popu.2004.0630


1Cet ouvrage est destiné à tout chercheur s’intéressant à l’analyse des textes au moyen de la statistique textuelle. Il n’est pas seulement une actualisation de l’ouvrage Statistique textuelle publié en 1994 et coécrit par Ludovic Lebart et André Salemmais. Il présente de nouveaux développements de la statistique décisionnelle ainsi que des langages libres comme Python pour la manipulation des chaînes de caractère, ou R pour son environnement statistique. Découpé en dix chapitres, l’ouvrage alterne efficacement théorie et illustrations avec des schémas et captures d’écran qui agrémentent chaque sujet.

2Pédagogiquement, l’ouvrage est adapté à plusieurs types de lecteurs. Du sociologue au mathématicien-statisticien, chacun trouve à la fois des explications littéraires précises et claires mais aussi des figures montrant les applications des méthodes et les formules mathématiques permettant de comprendre les calculs mis en œuvre. Pour la pratique, les logiciels et scripts font l’objet d’annexes spécifiques. Les auteurs prennent soin de présenter les éléments indispensables à la compréhension des méthodes d’analyse textuelle qu’ils situent par rapport à l’analyse qualitative, le traitement automatique des langues (TAL) ou la fouille de texte (textmining). Issue de plusieurs disciplines comme la statistique, la linguistique, l’analyse de discours ou l’informatique, l’analyse de données textuelles permet de synthétiser l’information contenue dans de grands corpus de textes et, selon la méthode employée, répondre à différents objectifs : rechercher des mots-clés, comparer des corpus, prendre en compte leurs métadonnées, identifier des structures…

3L’ouvrage débute avec une première partie consacrée à l’histoire de l’analyse des données textuelles et son évolution avec la « révolution numérique » et les données du Web. Les auteurs citent des exemples de données textuelles : réponses à des questions ouvertes, entretiens, discours politiques, titres d’articles, contenus de messages… Un premier chapitre présente les étapes nécessaires de préparation et de transformation des textes en tables lexicales analysables par les logiciels : construction des unités statistiques d’analyse par découpage des textes en unités de calcul plus petites (les unités de contexte), catégorisation automatique des mots avec une distinction entre mots-outils et mots porteurs de sens, lemmatisation. Un deuxième chapitre est consacré au repérage de mots ou de textes représentatifs de sous-ensembles de textes et permettant de les comparer (par auteur, par date) au moyen du calcul de fréquences ou de spécificités. Enfin, le troisième et dernier chapitre de cette partie montre la nécessité d’une analyse dite qualitative, complémentaire des textes, permettant d’interpréter les résultats quantitatifs issus des calculs.

4La deuxième grande partie est consacrée aux méthodes multidimensionnelles au cœur de la statistique textuelle. Ces méthodes dites d’approche descriptive exploratoire sont l’Analyse en composantes principales (ACP), l’Analyse des correspondances (AC) et les techniques de classification, par opposition à l’approche inférentielle et confirmatoire des méthodes basées sur des tests statistiques ou de modèles probabilistes. Les trois chapitres consacrés à la statistique exploratoire issue de l’algèbre et de la géométrie montrent comment ces méthodes permettent de synthétiser l’information contenue dans de grands tableaux de données : tableaux de mesures, tableaux de type « individus-variables », tableaux de contingence ou tableaux lexicaux dans le cadre de la statistique textuelle. La visualisation des co-occurrences se fait sur des plans factoriels qui permettent d’observer des ensembles de vocabulaires communs ou sur des dendrogrammes issus de classifications automatiques. La lecture des mots caractéristiques des classes permet de leur donner un intitulé ou une thématique. Plusieurs types de classifications, hiérarchiques ou de partitionnement, ainsi que la complexité de leur validation statistique y sont détaillés et illustrés.

5Enfin, la dernière partie du livre présente des stratégies d’analyse mises en œuvre avec l’utilisation conjointe des méthodes d’analyse textuelle et des méthodes exploratoires. Les exemples détaillés et illustrés sont d’un grand intérêt pour le lecteur moins féru de mathématiques. Un chapitre énonce les forces et les limites des méthodes exploratoires pour analyser le contenu des textes. Ainsi, les auteurs montrent l’intérêt de l’utilisation complémentaire de la classification de facteurs issus d’une analyse des correspondances d’une part, et des valeurs-test dans le calcul de spécificités d’autre part, pour révéler des textes caractéristiques des classes. Des applications d’analyse de réponses à des questions ouvertes en relation avec les caractéristiques des répondants ainsi que de discours présidentiels avec la détection de thèmes, illustrent cette partie.

6Le dernier chapitre présente la complémentarité entre analyses exploratoires et analyses prédictives confirmatoires pour la reconnaissance de thèmes. Une première application montre comment l’analyse de la forme des textes à partir de la distribution du vocabulaire (stylométrie) permet d’attribuer des textes à une catégorie, une classe, une époque. Cette méthode est mise en pratique pour l’attribution d’un poème à un auteur. Un procédé plus poussé encore utilisant les techniques discriminantes textuelles permet de prendre en compte à la fois le contenu et la forme des textes pour déterminer leur appartenance à une catégorie ou à un thème. Cette méthode est rendue possible après une phase d’apprentissage de détection de thèmes (topic model). Afin d’approfondir leur propos, les auteurs présentent cette méthode pour coder la catégorie sociodémographique de répondants à partir de leurs réponses à une question ouverte posée dans trois pays différents de langues différentes.

7À sa fin, l’ouvrage offre de précieuses ressources complémentaires. En plus d’une longue bibliographie et d’un index des termes employés, une annexe présente sept logiciels choisis pour leur approche méthodologique, leur gratuité et leur interface graphique. Leurs points forts et leur caractère spécialisé permettent au lecteur de choisir les outils correspondant le mieux à ses besoins.


Logo Souscrire pour ouvrir

Cet article est accessible en accès ouvert dans le cadre de notre modèle Souscrire Pour Ouvrir.

Date de mise en ligne : 25/03/2021

https://doi.org/10.3917/popu.2004.0630