Chapitre 4. Exploration d’une hypothèse en corpus

Céline Poudat; Frédéric Landragin

Explorer un corpus textuel 2017

Chapitre d’ouvrage

Chapitre 4. Exploration d’une hypothèse en corpus

Par Céline Poudat
et Frédéric Landragin

Pages 143 à 211

POUDAT, Céline
et LANDRAGIN, Frédéric,

2017. Chapitre 4. Exploration d’une hypothèse en corpus. In : Explorer un corpus textuel Méthodes - pratiques - outils. Louvain-la-Neuve : De Boeck Supérieur. Champs linguistiques, p.143-211. URL : https://shs.cairn.info/explorer-un-corpus-textuel--9782807305632-page-143?lang=fr.

Poudat, Céline.
et al.

« Chapitre 4. Exploration d’une hypothèse en corpus ». Explorer un corpus textuel Méthodes - pratiques - outils, De Boeck Supérieur, 2017. p.143-211. CAIRN.INFO, shs.cairn.info/explorer-un-corpus-textuel--9782807305632-page-143?lang=fr.

Poudat, C.
et Landragin, F.

(2017). Chapitre 4. Exploration d’une hypothèse en corpus. Explorer un corpus textuel : Méthodes - pratiques - outils (p. 143-211). De Boeck Supérieur. https://shs.cairn.info/explorer-un-corpus-textuel--9782807305632-page-143?lang=fr.

Notes

[1]
Et dont la structure peut naturellement être explorée suivant les méthodes présentées dans le chapitre précédent.
[2]
Voir la structure CARS (Creating A Research Space) définie par Swales (1990).
[3]
La représentation proposée est bien sûr non-hiérarchique, les niveaux étant en constante interaction.
[4]
À noter qu’à moins d’avoir recours à un questionnaire dans lequel seront explicitement consignées les informations qui nous intéressent, il est souvent difficile de disposer de ces données lorsqu’on travaille sur des corpus écrits – a fortiori quand on travaille sur des données issues du web, avec le jeu des pseudonymes et des avatars, et les détours des identités numériques.
[5]
Bien qu’il s’agisse d’une variable numérique, on traite l’âge comme une variable catégorielle.
[6]
Après avoir choisi un seuil de fréquence minimale, puisqu’il serait bien hasardeux de faire des probabilités sur une unité n’apparaissant qu’une ou deux fois dans le corpus.
[7]
Très exactement 68,26% des valeurs.
[8]
Formule simplifiée, puisqu’on admet certaines approximations, comme le fait de considérer que la variance est égale à la fréquence théorique – voir notamment Muller (1977/1992 : 50, 51) pour des explications que nous ne pouvons restituer intégralement ici.
[9]
On se réfère usuellement à une table pour convertir l’écart réduit en probabilité. Cf. Muller (1977/1992 : 198), Annexe Table pour les écarts réduits.
[10]
Voir par exemple Muller (1977/1992 : 197), Annexe Table de distribution du Chi2 ; on trouve par ailleurs de nombreuses tables du Chi2 en ligne.
[11]
C’est par exemple le cas pour AntConc.
[12]
Le calcul de l’écart réduit présente cet intérêt d’être simple et très peu coûteux, ce qui intéresse notamment les applications Web ; Hyperbase (standalone et Web) continue ainsi d’utiliser ce test et le propose systématiquement comme alternative à la distribution hypergéométrique. Si Brunet (2011, chapitre 4) concède que la distribution hypergéométrique offre une meilleure approximation, il recommande par ailleurs l’utilisation de la loi normale lorsqu’on dispose de corpus de grande taille.
[13]
C’est-à-dire que l’on ne remet pas dans l’urne ce qui a été tiré.
[14]
On appelle ce nombre un gogol, terme qui a d’ailleurs inspiré les créateurs du moteur de recherche Google.
[15]
Et donc que l’hypothèse nulle est vraie, c’est-à-dire que la distribution des données est bien due au hasard.
[16]
< http://www.lexically.net/wordsmith/>
[17]
< http://www.laurenceanthony.net/software.html/>
[18]
< http://www.athel.com/mono.html/>
[19]
< http://xaira.sourceforge.net/>
[20]
< http://www.sketchengine.co.uk/>
[21]
Si cette visualisation a du sens, c’est-à-dire si l’ordre des textes dans le corpus a lui-même du sens, notamment dans le cas d’un corpus chronologiquement organisé.
[22]
Pour les segments de longueur 4, nous ne rendons compte que des SR >9 occ.

Citer ce chapitre

Poudat, C.
et Landragin, F.

(2017). Chapitre 4. Exploration d’une hypothèse en corpus. Explorer un corpus textuel : Méthodes - pratiques - outils (p. 143-211). De Boeck Supérieur. https://shs.cairn.info/explorer-un-corpus-textuel--9782807305632-page-143?lang=fr.

Poudat, Céline.
et al.

« Chapitre 4. Exploration d’une hypothèse en corpus ». Explorer un corpus textuel Méthodes - pratiques - outils, De Boeck Supérieur, 2017. p.143-211. CAIRN.INFO, shs.cairn.info/explorer-un-corpus-textuel--9782807305632-page-143?lang=fr.

POUDAT, Céline
et LANDRAGIN, Frédéric,

2017. Chapitre 4. Exploration d’une hypothèse en corpus. In : Explorer un corpus textuel Méthodes - pratiques - outils. Louvain-la-Neuve : De Boeck Supérieur. Champs linguistiques, p.143-211. URL : https://shs.cairn.info/explorer-un-corpus-textuel--9782807305632-page-143?lang=fr.

Notes

[1]
Et dont la structure peut naturellement être explorée suivant les méthodes présentées dans le chapitre précédent.
[2]
Voir la structure CARS (Creating A Research Space) définie par Swales (1990).
[3]
La représentation proposée est bien sûr non-hiérarchique, les niveaux étant en constante interaction.
[4]
À noter qu’à moins d’avoir recours à un questionnaire dans lequel seront explicitement consignées les informations qui nous intéressent, il est souvent difficile de disposer de ces données lorsqu’on travaille sur des corpus écrits – a fortiori quand on travaille sur des données issues du web, avec le jeu des pseudonymes et des avatars, et les détours des identités numériques.
[5]
Bien qu’il s’agisse d’une variable numérique, on traite l’âge comme une variable catégorielle.
[6]
Après avoir choisi un seuil de fréquence minimale, puisqu’il serait bien hasardeux de faire des probabilités sur une unité n’apparaissant qu’une ou deux fois dans le corpus.
[7]
Très exactement 68,26% des valeurs.
[8]
Formule simplifiée, puisqu’on admet certaines approximations, comme le fait de considérer que la variance est égale à la fréquence théorique – voir notamment Muller (1977/1992 : 50, 51) pour des explications que nous ne pouvons restituer intégralement ici.
[9]
On se réfère usuellement à une table pour convertir l’écart réduit en probabilité. Cf. Muller (1977/1992 : 198), Annexe Table pour les écarts réduits.
[10]
Voir par exemple Muller (1977/1992 : 197), Annexe Table de distribution du Chi2 ; on trouve par ailleurs de nombreuses tables du Chi2 en ligne.
[11]
C’est par exemple le cas pour AntConc.
[12]
Le calcul de l’écart réduit présente cet intérêt d’être simple et très peu coûteux, ce qui intéresse notamment les applications Web ; Hyperbase (standalone et Web) continue ainsi d’utiliser ce test et le propose systématiquement comme alternative à la distribution hypergéométrique. Si Brunet (2011, chapitre 4) concède que la distribution hypergéométrique offre une meilleure approximation, il recommande par ailleurs l’utilisation de la loi normale lorsqu’on dispose de corpus de grande taille.
[13]
C’est-à-dire que l’on ne remet pas dans l’urne ce qui a été tiré.
[14]
On appelle ce nombre un gogol, terme qui a d’ailleurs inspiré les créateurs du moteur de recherche Google.
[15]
Et donc que l’hypothèse nulle est vraie, c’est-à-dire que la distribution des données est bien due au hasard.
[16]
< http://www.lexically.net/wordsmith/>
[17]
< http://www.laurenceanthony.net/software.html/>
[18]
< http://www.athel.com/mono.html/>
[19]
< http://xaira.sourceforge.net/>
[20]
< http://www.sketchengine.co.uk/>
[21]
Si cette visualisation a du sens, c’est-à-dire si l’ordre des textes dans le corpus a lui-même du sens, notamment dans le cas d’un corpus chronologiquement organisé.
[22]
Pour les segments de longueur 4, nous ne rendons compte que des SR >9 occ.

L’exploration de corpus peut également s’entendre comme la poursuite d’une hypothèse en corpus. L’approche est dans ce cas plus déductive et le corpus n’est plus comme précédemment l’objet premier à décrire : il a d’abord une fonction, celle de prendre le relais de l’intuition du locuteur pour décrire un fait linguistique au plus près de l’usage.
Nous ne recenserons évidemment pas l’ensemble des hypothèses émises par les chercheurs dans ce type d’approche fondée sur l’usage (usage-based) : ce serait une tâche plus qu’ardue, et il serait vain de nous égarer dans ce type d’inventaire dans le cadre du présent ouvrage. Il nous semble en revanche que deux types de parcours méthodologiques se dégagent, suivant la nature de l’objet qu’interroge l’hypothèse choisie.
Ainsi, et ce sera l’objet de notre première section, l’analyste peut partir d’une hypothèse de catégorisation, ou de structuration de son corpus : on peut ici parler d’exploration focalisée.
Élaborée par le chercheur, cette hypothèse dépend tant du cadre théorique de son étude que du type de données textuelles adopté : par exemple, un chercheur peut choisir d’explorer la question du genre sexuel homme ou femme dans un corpus de textes poétiques. Il décrira ainsi chaque poème avec les deux catégories homme et femme, et s’attachera à la comparaison des deux parties de son corpus : une partie contenant l’ensemble des poèmes écrits par des hommes et une autre contenant l’ensemble des poèmes écrits par des femmes…

Date de mise en ligne : 03/02/2020

Ce chapitre est en accès conditionnel

Acheter ce chapitre

5,00 €

69 pages format électronique (HTML, PDF et feuilletage)

Membre d'une institution cliente ?

Compte personnel

Chapitre 4. Exploration d’une hypothèse en corpus

Notes

Citer ce chapitre

Notes

Ce chapitre est en accès conditionnel

Acheter ce chapitre

Accès institutions

Toutes les institutions