Des méthodes de traitement automatique aux linguistiques fondées sur les corpus

Marcel Cori

doi:10.3917/lang.171.0095

Langages 2008/3 n° 171

Article de revue

Des méthodes de traitement automatique aux linguistiques fondées sur les corpus

Par Marcel Cori

Pages 95 à 110

CORI, Marcel,

2008. Des méthodes de traitement automatique aux linguistiques fondées sur les corpus. Langages, 2008/3 n° 171, p.95-110. DOI : 10.3917/lang.171.0095. URL : https://shs.cairn.info/revue-langages-2008-3-page-95?lang=fr.

Cori, Marcel.

« Des méthodes de traitement automatique aux linguistiques fondées sur les corpus ». Langages, 2008/3 n° 171, 2008. p.95-110. CAIRN.INFO, shs.cairn.info/revue-langages-2008-3-page-95?lang=fr.

Cori, M.

(2008). Des méthodes de traitement automatique aux linguistiques fondées sur les corpus. Langages, 171(3), 95-110. https://doi.org/10.3917/lang.171.0095.

https://doi.org/10.3917/lang.171.0095

Notes

[1]
Les méthodes du TAL ne peuvent par conséquent être semblables à celles en usage pour analyser les langages de programmation.
[2]
Une solution a été proposée dans (Cori & Marandin, 1997), en termes de préférence syntaxique : quand il y a le choix entre deux analyses, c’est celle qui met en jeu des syntagmes canoniques qui est choisie.
[3]
On peut traduire chunk par gros morceau.
[4]
Il est sûr en tout cas qu’une faute d’orthographe portant sur un trop grand nombre de lettres relativement à la taille d’un mot serait plus difficile à corriger automatiquement.
[5]
Cf. ci-dessus.
[6]
Cf. l’article de Marcel Cori et Sophie David dans ce numéro.

Citer cet article

Cori, M.

(2008). Des méthodes de traitement automatique aux linguistiques fondées sur les corpus. Langages, 171(3), 95-110. https://doi.org/10.3917/lang.171.0095.

Cori, Marcel.

« Des méthodes de traitement automatique aux linguistiques fondées sur les corpus ». Langages, 2008/3 n° 171, 2008. p.95-110. CAIRN.INFO, shs.cairn.info/revue-langages-2008-3-page-95?lang=fr.

CORI, Marcel,

2008. Des méthodes de traitement automatique aux linguistiques fondées sur les corpus. Langages, 2008/3 n° 171, p.95-110. DOI : 10.3917/lang.171.0095. URL : https://shs.cairn.info/revue-langages-2008-3-page-95?lang=fr.

https://doi.org/10.3917/lang.171.0095

Notes

[1]
Les méthodes du TAL ne peuvent par conséquent être semblables à celles en usage pour analyser les langages de programmation.
[2]
Une solution a été proposée dans (Cori & Marandin, 1997), en termes de préférence syntaxique : quand il y a le choix entre deux analyses, c’est celle qui met en jeu des syntagmes canoniques qui est choisie.
[3]
On peut traduire chunk par gros morceau.
[4]
Il est sûr en tout cas qu’une faute d’orthographe portant sur un trop grand nombre de lettres relativement à la taille d’un mot serait plus difficile à corriger automatiquement.
[5]
Cf. ci-dessus.
[6]
Cf. l’article de Marcel Cori et Sophie David dans ce numéro.

INTRODUCTION

1 Depuis ses origines, le traitement automatique des langues (TAL) est soumis à des tensions, à des oppositions de diverses sortes (voir Cori & Léon 2002). Parmi ces oppositions, il y a l’opposition entre objectifs théoriques et visées pratiques, ainsi que l’opposition entre méthodes symboliques et méthodes quantitatives ou numériques. Depuis le début des années 1990, les visées pratiques ont pris un poids supérieur. Il en est résulté qu’une importance accrue a été accordée aux méthodes numériques, c’est-à-dire aux méthodes statistiques et probabilistes (regroupées parfois sous le terme de méthodes stochastiques). En prolongement de ces travaux, qui ont donné lieu à des outils pratiques dont il serait difficile de nier l’intérêt, certains chercheurs ont voulu tirer des conséquences sur les fondements et les méthodes de la linguistique.

2 L’objet de cet article est de s’interroger sur le lien entre ces conceptions (nouvelles ?) apparues en linguistique et les méthodes numériques en traitement automatique. Dans une première partie, on met en évidence l’opposition entre deux grands types de méthodes en TAL, méthodes que l’on peut regrouper sous les étiquettes de « TAL robuste » et de « TAL théorique ». Dans une deuxième partie, on examine de plus près les méthodes stochastiques en essayant d’en dégager les présupposés théoriques sous-jacents. Dans la troisième et dernière partie, on montre comment un glissement a pu être opéré entre méthodes de traitement automatique (pratiques) et affirmations de conceptions théoriques sur le langage. Il en découle une interrogation sur le statut épistémologique du TAL stochastique, et plus globalement du TAL, de sa place par rapport à la linguistique.

1. TAL ROBUSTE CONTRE TAL « THÉORIQUE »

1.1. Un parcours historique rapide

3 On s’accorde en général à reconnaître que le TAL est né à la fin des années 1940 avec les premiers projets de traduction automatique. C’est l’échec du versant pratique de ces projets qui a conduit à définir une vision moins utilitariste et plus scientifique du traitement automatique, vision traduite en anglais par le terme « Computational Linguistics ». Le rapport de l’ALPAC (Automatic Language Processing Advisory Committee), comité mis en place pour juger de la validité des expériences de traduction automatique, ne s’est pas contenté de porter un coup d’arrêt à ces expériences, il a suggéré de favoriser la recherche fondamentale plutôt que les applications.

4 Selon les auteurs du rapport, l’ordinateur, premier objet susceptible de manipuler des symboles hors du cerveau des êtres humains, doit changer le niveau d’analyse des langues, comme le microscope a révolutionné la biologie (ALPAC 1966 : 121). C’est l’analyse syntaxique automatique qui est mise au cœur du TAL. On la considère comme devant apporter des connaissances nouvelles aux linguistes, par l’explicitation en détail des théories qu’ils produisent. Le traitement automatique est vu comme indissociable d’une modélisation, qui prend le plus souvent sa source dans les grammaires syntagmatiques.

5 Dans les années 1960, un lien fort s’établit entre le TAL et la linguistique formelle, lien qui perdure dans les années 1970 et 1980. « Au contact de l’informatique » (Cori & Marandin 2001), la linguistique s’enrichit d’une multitude de modèles formels, dont l’objectif est essentiellement la description syntaxique. Ce foisonnement culmine au milieu des années 1980 (Miller & Torris 1990). Il est ainsi intéressant de noter que le rejet des grammaires transformationnelles (GT) par Gazdar, à la source de la définition des GPSG (Generalized Phrase Structure Grammars), s’appuie notamment sur l’existence d’analyseurs syntaxiques efficaces fondés sur les grammaires syntagmatiques, alors que les GT ne peuvent donner lieu à de tels analyseurs. Par ailleurs, toute une série de formalismes de représentation – DCG (Definite Clause Grammars), FUG (Functional Unification Grammars), PATR II (Parse and Translate) – sont explicitement des formalismes qui se donnent pour perspective l’informatisation. Et ces formalismes comptent parmi les ancêtres des HPSG (Head-Driven Phrase Structure Grammar).

6 On peut désigner sous le terme de « TAL théorique » cette vision d’un traitement automatique étroitement associé à la linguistique formelle.

7 À partir du début des années 1990, en raison des évolutions techniques en informatique (micro-informatique, Internet), qui ont suscité un renouvellement et un brusque accroissement de la demande sociale, les visées pratiques sont devenues primordiales. On a alors observé que le TAL théorique ne permettait pas de répondre à cette demande, d’où le développement d’un certain nombre de méthodes qui ont été regroupées sous le terme de « TAL robuste » et qui s’opposent aux méthodes du TAL théorique. Parmi lesquelles, occupant une place prépondérante, les méthodes stochastiques.

8 C’est ainsi qu’en 1995 Benoît Habert note le « relativement récent engouement pour les approches statistiques et probabilistes, ainsi que pour celles qui marient symbolique et quantitatif » (1995 : 3). Auparavant, de telles approches étaient ignorées, notamment par les livres de référence sur le « traitement automatique du langage » ou sur les « modèles mathématiques pour la linguistique ». Un point de départ serait les deux numéros spéciaux de Computational Linguistics (1993) consacrés aux grands corpus. « Le vent souffle désormais au quantitatif » (ibid.). Parmi les causes, « les données disponibles ont changé d’échelle et de nature ». On accède facilement à des corpus de plusieurs dizaines de millions de mots, et depuis peu les corpus sont assortis d’arbres syntaxiques (corpus « arborés »). Par ailleurs, on a « le souci d’obtenir des produits réellement industriels en “industries de la langue” ».

9 B. Habert est néanmoins conscient que ces approches ne sont pas radicalement nouvelles. « Les changements de cap sont […] propices à tous les oublis, et des avancées symboliques des dix ou vingt dernières années, et des travaux statistiques d’avant cette “redécouverte” » (1995 : 4).

1.2. Ce qui fonde le TAL robuste

1.2.1. La critique du TAL théorique

10 La nécessité, dans les années 1990, de créer des logiciels efficaces a révélé une certaine impuissance des méthodes du TAL théorique, et notamment des méthodes d’analyse syntaxique. Afin de satisfaire les utilisateurs, les logiciels de TAL doivent œuvrer sur du texte « tout-venant » et pas sur des exemples fabriqués par le linguiste. Or il se trouve que les grammaires construites par les linguistes échouent à traiter du « vrai » texte, parce qu’elles se heurtent à deux types de difficultés :

11

les grammaires et les lexiques des linguistes ne peuvent être exhaustifs, entre autres parce que des nouveaux mots apparaissent tous les jours, éventuellement de nouvelles constructions syntaxiques, et que les locuteurs n’ont pas une obligation de parler ou d’écrire « correctement » (contrairement aux programmeurs de qui on peut exiger qu’ils écrivent des programmes sans erreurs de syntaxe [1]).
dans la pratique on s’est aperçu que les analyseurs syntaxiques engendraient un nombre considérable d’ambiguïtés (problème notamment des attachements). Par exemple une expression comme (1) peut donner lieu à 42 analyses, tandis que (2) donnerait lieu à 132 analyses, et (3) à au moins 5 544 analyses.

12

(1) l’arrivée du train de la sœur de ma voisine à la gare de Lyon
(2) le départ du train de la voisine de ma sœur à la gare des TGV de Lille
(3) le départ du train de la voisine de ma sœur à la gare des TGV de Lille précèdera l’arrivée du train de la sœur de ma voisine à la gare de Lyon

13 La tentative de résolution du problème (i) par l’augmentation du pouvoir de couverture des grammaires a le défaut d’augmenter le nombre d’ambiguïtés engendrées et donc d’aggraver le problème (ii). Par exemple, si on veut qu’une grammaire autorise l’analyse de la phrase (4) le risque est grand que cette même grammaire soit à la base de deux analyses distinctes pour la phrase (5), calme étant pris soit comme un adjectif (analyse correcte), soit comme un nom (analyse très vraisemblablement inadaptée, reproduisant l’analyse de la phrase précédente)  [2].

14

(4) Paul est très sieste
(5) Paul est très calme

1.2.2. Les critères du TAL robuste

15 Les critères qui déterminent si un logiciel de TAL est robuste sont au nombre de trois :

16

Il faut que le logiciel prenne pour données de « vraies » productions langagières, du texte « tout venant », et pas des exemples fabriqués par les linguistes.
Il faut qu’à chaque exécution le logiciel fournisse une solution et une seule. D’une part, un système ne doit pas se bloquer sous prétexte que les données seraient « incorrectes », non grammaticales. D’autre part, plutôt qu’un ensemble de solutions mises sur le même plan, le logiciel doit « choisir » la meilleure.
Enfin, les logiciels de TAL robuste doivent se prêter à des procédures d’évaluation (quantitatives) de leurs performances. Ainsi peut-on déterminer quels sont les meilleurs logiciels possibles, en regard des attentes des utilisateurs.

1.2.3. Les méthodes du TAL robuste

17 On oppose en général deux types de méthodes en ce domaine : les méthodes stochastiques et les méthodes fondées sur des règles. Nous pouvons y ajouter un troisième type, les méthodes à base d’automates finis ou d’expressions régulières, qui peuvent être considérées comme intermédiaires entre TAL robuste et TAL théorique.

18 Nous revenons dans la partie suivante sur les méthodes stochastiques. Les méthodes fondées sur des règles, qui ne mettent pas en jeu de comptages, sont utilisées par exemple pour étiqueter des textes, c’est-à-dire pour affecter une catégorie, ou partie du discours, à chacun des mots qui le composent. Si on se contente de consulter un lexique, il reste nécessairement des ambiguïtés : par exemple ferme peut être un nom, un verbe ou un adjectif, livre un verbe, un nom masculin ou un nom féminin, la un article, un pronom ou une note de musique, été un nom ou le participe passé du verbe être, pensions ou avions des noms au pluriel ou des verbes à l’imparfait à la première personne du pluriel. Les règles qui permettent de désambiguïser la multiplicité de catégories possibles pour un mot sont appelées des règles contextuelles, car elles utilisent les mots qui précèdent ou qui suivent. « Dans la plupart des cas, seul le contexte proche est utilisé (mots avoisinants, à une distance de un, deux, voire exceptionnellement plus) » (Merialdo 1995 : 14). Ces règles peuvent porter directement sur des mots ou être plus générales et porter sur des catégories. Par exemple :

19

(6) Après un, livre est un nom masculin.
Après le verbe avoir, été est le participe passé du verbe être.
Après un article, un mot est un nom (plutôt qu’un verbe).

20 Ces règles ne sont évidemment pas, comme on le voit, des règles qui décriraient la grammaire d’une langue. En ce sens, on peut dire qu’il s’agit de règles ad hoc. Leur objet est d’être intégrées dans un traitement informatique, et le plus souvent leur usage est « procédural », c’est-à-dire que l’ordre dans lequel on les applique est important. Pour l’étiquetage, par exemple, on arrête la procédure dès qu’une étiquette unique est affectée à un mot.

21 Les règles sont le plus souvent établies « à la main », selon l’intuition de celui qui les écrit, intuition de locuteur qui peut s’aider de connaissances grammaticales sur la langue concernée. En général, cependant, il y a une phase de mise au point des systèmes fondés sur des règles, au cours de laquelle on teste l’effet des règles choisies et on corrige en conséquence. Il se peut que soit corrigé l’ordre d’application des règles, que certaines règles soient supprimées, d’autres ajoutées, en une sorte de tâtonnement qui permet de converger vers un système optimal. Il se peut aussi que des règles et leur ordre d’application soient déterminés automatiquement, par apprentissage, en calculant à partir d’un corpus quelles sont les meilleures règles et quel est le meilleur ordre d’application. Mais, une fois ceci déterminé, il n’y a plus de calcul qui intervienne dans l’application des règles. Telle est la méthode, dite par « transformations », de Eric Brill (1995). On peut y voir un compromis entre méthodes stochastiques et méthodes fondées sur des règles.

22 Les méthodes fondées sur des expressions régulières ou des automates finis permettent d’élargir en la complexifiant la notion de contexte mise en jeu par les règles. De nombreux travaux visent ainsi à prendre en compte la dimension syntaxique des énoncés, tout en ne produisant pas d’analyses syntaxiques complètes. Afin de ne pas être bloqué lors de la tentative d’analyse d’un énoncé par une non-conformité à la grammaire, ou au contraire d’être noyé par un trop grand nombre de solutions, on préfère se borner à obtenir des fragments d’analyses. Tel est l’objet du chunk parsing [3].

23 Par exemple, l’analyse de Abney (1996b, entre autres) par « cascades d’automates », qui utilise une succession de transducteurs finis. Ainsi, la phrase (7) est analysée en (8) comme serait analysé en (9) le syntagme nominal ambigu :

24

(7) the woman in the lab coat thought you were sleeping
(8) [_S [_SN the woman] [_SP in [_SN the lab coat]] [_SV thought]] [_S [_SN you] [_SV were sleeping]]
(9) [_SN l’arrivée] [_SP du train] [_SP de la sœur] [_SP de ma voisine] [_SP à la gare] [_SP de Lyon]

25 On abandonne l’espoir de tenter de résoudre les ambiguïtés, ou de proposer toutes les solutions possibles. On renvoie plutôt une structure « aplatie », sans chercher à déterminer quel constituant contiendrait tel autre constituant. L’idée est de faire d’abord les regroupements les plus évidents, de prendre d’abord les décisions les plus faciles, de construire des « îlots de certitude ».

26 Abney explique lui-même (1996b : 338-339) que ses automates ne sont pas faits pour donner une description linguistique, mais pour obtenir des résultats. « The grammar is not viewed as a linguistic description but as a programming language for recognizers. The goal is to write patterns that are reliable indicators of bits of syntactic structure, even if those bits of structure are “boundaries” or “kernels” rather than traditional phrases ».

27 Le dilemme auquel sont confrontés les concepteurs de systèmes de traitement automatique est le suivant : choisir entre des modèles plus adéquats à la représentation des langues mais qui ne donnent pas lieu à des réalisations pratiques acceptables, ou sacrifier l’expressivité linguistique. Ceci est nettement exprimé par Fernando Pereira et Rebecca Wright, qui proposent en conséquence une solution de compromis, consistant à construire une approximation d’un modèle expressif. « For efficiency reasons, most current recognition systems rely on finite-state language models. These models, however, are inadequate for language interpretation, since they cannot express the relevant syntactic and semantic regularities. Augmented phrase structure grammar (APSG) formalisms, such as unification grammars (Shieber 1985), can express many of those regularities, but they are computationally less suitable for language modeling because of the inherent cost of computing state transitions in APSG parsers » (1997 : 149).

2. LES MÉTHODES STOCHASTIQUES

28 Les méthodes stochastiques sont des méthodes probabilistes fondées sur des calculs statistiques effectués à partir de corpus. Nous décrivons tout d’abord une méthodologie générale, empruntée à Merialdo (1995), que nous illustrons ensuite à travers l’explicitation précise de deux exemples de traitement, et nous terminons en énonçant quelques remarques sur ce type de méthodes.

2.1. Une méthodologie générale

29 Bernard Merialdo (1995 : 8) décrit une méthodologie générale qui s’applique en gros à tous les types de tâches. Cette méthodologie comporte trois phases, une fois la tâche bien identifiée :

30

une phase où on « modélise le problème, en faisant apparaître les probabilités de certains événements ». Ce qui nécessite de faire des « hypothèses simplificatrices : par exemple on suppose que l’apparition d’un mot ne dépend que des deux mots précédents », « le bon choix des hypothèses [étant] un facteur primordial pour la qualité du modèle obtenu ».
ensuite, « à partir de données d’apprentissage » (corpus éventuellement annotés), « on construit des estimations des valeurs des probabilités élémentaires » définies dans la phase de modélisation.
quand se présentent des données neuves, on leur applique les probabilités élémentaires calculées à la phase précédente, ce qui permet une prise de décision.

31 On peut dire que le corpus sert à « étalonner » l’outil de traitement automatique des langues, et que du coup le corpus occupe bien une place centrale dans l’élaboration de cet outil.

32 Les difficultés de mise en œuvre de ces méthodes sont pointées : le coût des programmes, en temps d’exécution et en espace mémoire, qui obligent à s’en tenir à des modèles très simplificateurs, l’absence de certaines données qui seraient utiles – on ne dispose pas toujours d’un corpus adéquat au problème que l’on veut traiter – et l’estimation très imparfaite des faibles probabilités (Merialdo 1995 : 9-10).

2.2. Une correction orthographique

33 Il s’agit d’une méthode de correction orthographique qui porte sur les mots indépendamment de leur contexte. Cette méthode, proposée par Kernighan et al. (1990), est reprise et explicitée dans le manuel de référence de Jurafsky et Martin (2000). Les hypothèses sont fortes :

34

Les mots bien orthographiés figurent dans une liste fermée (lexique, dictionnaire). Ce qui permet de détecter les « non-mots » dans un texte.
On suppose que l’erreur provient d’une et une seule parmi les quatre causes suivantes : insertion d’une lettre parasite, suppression d’une lettre, substitution d’une lettre par une autre lettre ou enfin interversion entre deux lettres qui se suivent.

35 Ainsi ne seraient pas détectées des fautes portant sur plus de deux lettres, par exemple :

36

(10) chapeau → chapo
potion → possion
rognon → ronion
chevaux → chevals

37 L’exemple qui est donné est celui de la découverte du non-mot acress dans un texte en anglais. Selon l’hypothèse ci-dessus, ce non-mot peut provenir de six mots correctement orthographiés, de sept façons différentes :

38

(11) cress → acress (insertion d’un a parasite en première position)
actress → acress (suppression du t)
caress → acress (inversion des lettres c et a)
access → acress (remplacement de la deuxième occurrence de c par un r)
across → acress (remplacement du o par un e)
acres → acress (insertion d’un s parasite en avant-dernière position)
acres → acress (insertion d’un s parasite en dernière position)

39 C’est de deux façons que acress peut être obtenu à partir de acres.

40 Pour choisir entre ces six candidats à la correction, un score leur est attribué. On se fonde à cet effet sur un corpus comportant des fautes d’orthographe, mais qui ne peut être traité qu’à la main : s’il était possible d’avoir automatiquement la bonne orthographe des mots mal orthographiés, cela signifierait que le problème serait déjà résolu. Toutefois, dans un tel corpus, on ne peut disposer d’un nombre d’occurrences d’erreurs du type across → acress qui soit statistiquement significatif. C’est pourquoi on pose une nouvelle hypothèse simplificatrice : on effectue les comptages non pas sur les mots, mais sur les lettres. Par exemple le nombre de fois où la suite de deux lettres ac a été remplacée par le caractère unique c, le nombre de fois où la lettre e a été remplacée par la suite es, le nombre de fois où ac a été écrit ca ou le nombre de fois où o a été remplacé par e. On remarque que dans le cas de la suppression ou de l’insertion, le contexte pris en compte est celui de la lettre qui précède, et pas celui de la lettre qui suit, ce qui peut paraître arbitraire. De même, pourquoi une lettre de contexte, et pas deux ou plus ? Et pourquoi dans les deux autres cas aucun contexte n’est-il pris en compte ? Ceci n’a pas de valeur théorique, mais résulte d’une raison pratique : les calculs seraient trop complexes à faire si on augmentait les contextes considérés, et le recueil des données d’apprentissage presque impossible, tant il faudrait une grande quantité de données.

41 Toutefois, ce qu’il est le plus important de souligner à propos de cette méthode, c’est qu’elle mélange, dans les calculs qui sont effectués, toutes les causes possibles d’erreurs : la proximité des touches sur les claviers, la proximité phonologique, les incertitudes orthographiques, etc.

2.3. La méthode des n-grammes

42 Dans une suite de mots, il est possible de prévoir le mot suivant, ou plus précisément de donner la probabilité d’apparition du mot qui suit. Les applications de cette hypothèse sont multiples, de la correction orthographique en fonction du contexte à la reconnaissance de la parole, en passant par l’aide aux handicapés. La méthode des n-grammes consiste à donner la probabilité d’apparition du n-ième mot en fonction des (n – 1) qui précèdent. Dans la pratique, la simplification est extrême, puisqu’on ne considère le plus souvent que le seul mot qui précède (digrammes).

43 Un exemple d’application est le « Berkeley restaurant project » (Jurafsky et al. 1994), également repris dans Jurafsky et Martin (2000 : 198), censé être un système de reconnaissance de la parole. Les utilisateurs posent, par téléphone, des questions sur les restaurants de la ville de Berkeley. Des statistiques ont été faites sur un corpus de questions effectivement posées, ce qui a permis de calculer la probabilité d’apparition d’un mot après un autre mot, dans ce contexte particulier. Par exemple, après le mot eat, parmi les fréquences observées, on note 0,16 pour on, 0,06 pour some, 0,06 pour lunch, 0,04 pour a, 0,04 pour Indian, 0,03 pour Thai et 0,001 pour British.

44 On note ici encore que le résultat est le reflet aussi bien de faits de langue (l’emploi de prépositions ou de déterminants après un tel verbe) que de faits culturels : l’existence ou la non-existence de restaurants qui offrent de la nourriture indienne ou de la nourriture anglaise en Californie.

2.4. Observations

45 Remarquons tout d’abord que les approches probabilistes fondées sur des statistiques se trouvent confrontées à deux exigences contradictoires. Ces méthodes consistent en effet à essayer, à partir d’un certain nombre d’indices i₁, i₂,… , i_p observés dans la réalité, de déterminer la probabilité d’un événement E. À cette fin, on cherche, dans un ensemble de données attestées et enregistrées, le corpus dans le cas du traitement de données langagières, les situations où apparaissent les p indices et, parmi ces situations, on compte celles où l’événement E s’est effectivement produit. Plus on trouve de situations où i₁, i₂,… , i_psont vérifiés et plus le résultat statistique est significatif. Mais plus le nombre d’indices est élevé et plus le nombre de situations pour lesquelles tous ces indices sont vérifiés est faible. C’est pourquoi on est conduit à diminuer très fortement le nombre d’indices pris en compte : les n-grammes qui deviennent des 1-grammes, le contexte de la faute d’orthographe qui se réduit au maximum à un caractère, etc. Le degré de similarité entre la situation étudiée et les situations prises en compte pour le calcul de la probabilité se trouve ainsi nécessairement amoindri.

46 Les modèles qui sont définis dans ce contexte sont des modèles d’approximation : on décide de prendre en compte certains aspects de la réalité et d’en ignorer d’autres. La question qui se pose alors est de savoir si oui ou non il y a des hypothèses linguistiques ou cognitives qui sont sous-jacentes aux choix qui sont effectués. On peut dire qu’il y a effectivement de telles hypothèses, mais que celles-ci sont très générales, très imprécises : par exemple qu’il est probable qu’une faute d’orthographe porte sur un minimum de lettres dans un mot – ce qui, statistiquement, doit être vrai  [4] – ou qu’il n’y a pas équiprobabilité d’apparition de tous les mots après un mot donné. Les résultats numériques obtenus reflètent effectivement certaines propriétés des langues. Par exemple la forte probabilité qu’un verbe transitif soit suivi d’un déterminant peut être interprétée comme rendant compte des deux règles de réécriture de (12).

47

(12) SV → V [trans] SN
SN → Dét (Adj) N

48 Mais l’existence possible de telles règles est ignorée par le « modèle », qui ne considère pas les constituants mais les mots. La théorie linguistique sous-jacente serait une théorie qui considère les productions langagières comme des suites linéaires de mots. En ce sens, si modèles il y a, ils se placent en deçà des représentations élémentaires et anciennes de la syntaxe des langues.

49 En fait, ces travaux ne supposent même pas la séparation d’un niveau syntaxique autonome, puisque, dans les comptages, différents niveaux de propriétés linguistiques ou cognitives se trouvent mélangées – au lieu d’essayer d’isoler les différentes causes qui interviennent. Cela n’est pas à condamner tant qu’ils ne s’accompagnent pas d’une ambition explicative, tant que leur objectif n’est pas de mettre au jour les propriétés des langues, mais d’offrir les services les plus satisfaisants qui soient aux utilisateurs de programmes informatiques. Et on peut supposer que, si les corpus d’apprentissage sont à l’image des données langagières que les utilisateurs vont soumettre à ces programmes, on peut aller vers une optimisation de la satisfaction.

50 Toutefois, il n’y a aucune garantie de satisfaction dans tous les cas. On peut comparer alors le traitement automatique des langues à des mesures de santé publique, comme la vaccination, ou la préconisation de certains régimes : on a pu vérifier par la statistique que cela améliorait la santé moyenne des individus, sans être sûr que ça n’allait pas dégrader celle de certains d’entre eux, minoritaires.

3. LES DÉRIVÉS THÉORIQUES

51 Les travaux de traitement automatique des langues, et notamment les travaux de TAL stochastique, ont une légitimité pleine et entière en tant que tels. Ne donnent lieu à interrogation que les étiquettes sous lesquels ils sont présentés, qui n’en reflètent pas nécessairement la nature réelle. Parmi ces étiquettes, certaines sont révélatrices de la volonté de ne pas séparer le TAL stochastique de la recherche en linguistique, de la tentation de remodeler la recherche en linguistique en écho aux travaux de TAL, voire à fonder sur le TAL stochastique la recherche en linguistique. Il paraît par conséquent nécessaire de réfléchir sur la place du TAL par rapport à la linguistique, et les arguments opposés par Karl R. Popper aux « instrumentalistes » pourront apporter un éclairage intéressant à cette réflexion.

3.1. Quelle dénomination ?

52 En étudiant une suite de trois numéros de la revue TAL parus sur huit ans (1995, 2001, 2003), on observe que des travaux dont la nature reste semblable sont présentés sous des intitulés dont la prétention s’accroît au fil du temps. Ce qui s’appelait « traitements probabilistes » devient « linguistique de corpus », puis « modélisation probabiliste du langage naturel », alors que les contenus couverts ne semblent pas réellement différents.

53 Le premier numéro, qui date de 1995, a pour titre « Traitements probabilistes et corpus » (TAL 36 : 1-2). Benoît Habert, qui introduit le numéro, se place dans le cadre de la « linguistique informatique ». La perspective est clairement de décrire des méthodes de traitement automatique qui ont été conçues dans un souci d’efficacité. À cette fin, les auteurs n’hésitent pas à préconiser de mixer les méthodes stochastiques avec des méthodes basées sur des règles, ou avec des méthodes fondées sur des études linguistiques.

54 Ainsi, selon Béatrice Daille, dans le domaine du repérage et de l’extraction de terminologie, il existe « deux techniques principales […] : une technique structurelle fondée sur une analyse syntaxique plus ou moins poussée de l’énoncé et une technique statistique et numérique qui décèle les associations préférentielles présentes dans les corpus » (1995 : 102). C’est pourquoi elle défend « une approche mixte statistique et linguistique ». Ainsi, selon Jean-David Sta, la construction automatique des terminologies « suscite de nombreux travaux qu’on peut caractériser par deux approches, l’une statistique et l’autre linguistique qui suivant les situations, coopèrent, se juxtaposent ou s’excluent » (1995 : 120). Ainsi, selon Bernard Merialdo, « une performance optimale ne pourra vraisemblablement être obtenue que lorsque ces modèles probabilistes sauront intégrer des connaissances linguistiques suffisamment fines, ce qui constitue encore un sujet de recherche à peine effleuré » (1995 : 19). Quant à Marc El-Bèze et Thierry Spriet, ils proposent de corriger à l’aide d’un « petit nombre de règles ad hoc » (1995 : 63) les résultats obtenus par un étiqueteur probabiliste. L’objectif est bien, pour tous ces auteurs, avant tout pragmatique.

55 En 2001 paraît un numéro intitulé « Linguistique de corpus », sous la direction de Béatrice Daille et Laurent Romary (TAL 42 : 2). Ce numéro, qui est présenté en dépit de son titre comme étant un « numéro spécial sur corpus et traitement automatique » (Daille & Romary 2001 : 345), s’inscrit dans la continuité de celui de 1995, ainsi qu’il est indiqué dans l’introduction. « Aujourd’hui, le déploiement de la toile, la disponibilité toujours croissante de publications et de documentations diverses sous format électronique place toujours le “corpus” au centre du Traitement Automatique des Langues » (ibid. : 343). Ils recensent de nouvelles problématiques « comme la détection de thèmes ou de genres textuels ». En dehors de « ces applications purement informatiques », ils évoquent « la normalisation des annotations en corpus de manière à permettre leur exploitation par différents logiciels et systèmes d’exploitation ».

56 Néanmoins, les auteurs tentent une distinction entre linguistique de corpus et TAL. « Pour la linguistique de corpus, qui relève de la linguistique appliquée, principalement dans les domaines de l’enseignement des langues et de la lexicographie, le corpus joue un rôle central puisqu’il permet d’effectuer des recherches sur la langue elle-même. À l’inverse, les corpus sont nécessaires au TAL mais plutôt pour construire et valider des applications informatiques. Malgré ces divergences d’approche sur le rôle du corpus dans ces deux disciplines, la linguistique de corpus a vite compris l’intérêt des applications informatiques et des annotations pour l’étude de la langue » (ibid. : 343-344). Les linguistes de corpus utilisent ainsi les concordanciers et autres « logiciels d’exploration de corpus annotés ». « Les techniques plus élaborées de TAL comme l’analyse syntaxique permettent maintenant l’accès à des phénomènes linguistiques typiques étudiés par les linguistes de corpus comme la collocation » (ibid. : 344).

57 Les éditeurs scientifiques du numéro se livrent ici à un difficile exercice d’équilibre. Ils distinguent, à juste titre, les objectifs du TAL des objectifs de la linguistique, et par conséquent pour eux de ce que serait la linguistique de corpus. Mais ils donnent de la linguistique de corpus une caractérisation double et en partie contradictoire. D’une part, elle aurait pour objectif « d’effectuer des recherches sur la langue elle-même » et d’autre part, elle relèverait de la « linguistique appliquée » (ibid. : 343). Or une science appliquée vise à définir des méthodes pratiques en utilisant une connaissance de l’objet et non à approfondir la connaissance de l’objet. À ce titre, le TAL pourrait être sans difficulté rattaché à la linguistique appliquée. En fait, B. Daille et L. Romary semblent ne pas vouloir établir de séparation claire entre TAL et linguistique de corpus, entretenant une espèce de confusion entre les deux, ne serait-ce que parce qu’on ne sait pas si les articles publiés dans le numéro se rattachent à l’un, à l’autre ou aux deux. Il faut dire que la revue est une revue de traitement automatique, et que ceux qui en ont dirigé le numéro tirent eux-mêmes leur légitimité scientifique de travaux en traitement automatique.

58 Le titre « Modélisation probabiliste du langage naturel » du numéro paru en 2003, sous la direction de Michèle Jardino et Marc El-Bèze (TAL 44 : 1), semble le signe d’une ambition encore plus grande. Cependant, si dans l’introduction les éditeurs scientifiques évoquent la notion de « modèles de langage », renvoyant à Charniak, Jelinek et de Mori, c’est parce que ces modèles « jouent un rôle déterminant dans le fonctionnement des systèmes de traitement automatique de la langue naturelle qui sont confrontés à des problèmes réels, le plus souvent de grande taille » (Jardino & El-Bèze 2003 : 7). Les problèmes évoqués sont notamment la reconnaissance de la parole, la traduction automatique, la recherche d’information. Ils ajoutent qu’il « est indispensable que l’apprentissage des modèles employés soit automatisé ». Il apparaît clairement que les modèles dont il est question ne sont pas des modèles de représentation des connaissances linguistiques mais bien des modèles pour le traitement automatique, du type de ceux évoqués par B. Merialdo [5].

59 En fait, M. Jardino et M. El-Bèze n’éprouvent pas le besoin de définir précisément ce que sont les modèles qu’ils évoquent. Est considéré comme évident l’usage des n-grammes, mais la question est posée de la probabilité des n-grammes non observés, et « de savoir quels sont, parmi ces n-grammes non observés, ceux qui sont réellement possibles au regard de la connaissance de la langue » (2003 : 8). Les approches numériques sont considérées comme désormais admises universellement : « Au-delà de la vieille opposition entre les approches numériques et les méthodes à base de connaissance, tout le monde s’accorde pour introduire des règles dans les modèles stochastiques ou des probabilités dans les grammaires, dans l’espoir de cumuler les avantages des deux points de vue » (ibid.). Malgré cela, on sent un besoin de se justifier vis-à-vis de ceux, non nommés, qui auraient critiqué les méthodes numériques. Selon M. Jardino et M. El-Bèze, les articles de la revue « renforcent les éléments d’une preuve qui se solidifie de contribution en contribution. Les méthodes statistiques que d’aucuns ont parfois qualifiées de brutales savent également mettre en jeu une analyse fine de la langue » (ibid. : 9).

3.2. Du TAL à la linguistique

60 Comme on le voit, les spécialistes du traitement automatique, sur la base de leurs réalisations pratiques et au delà de la présentation de leurs méthodes, acquièrent des velléités à intervenir sur le champ de la recherche en linguistique. Ainsi, dès le numéro de TAL de 1995, Jean-Marc Langé et Eric Gaussier, qui travaillent sur « l’alignement des corpus multilingues », débordent sur une appréciation très générale de la manière de faire des linguistes. « Pour étudier les phénomènes linguistiques, les linguistes ont toujours eu, en gros, deux solutions : l’observation, qui les amène à se pencher sur les textes, et l’introspection, qui leur permet de juger a priori de l’acceptabilité de telle ou telle production linguistique » (1995 : 68). Ils supposent ou souhaitent « que tous les phénomènes possibles se trouvent dans les textes existants », évoquent « la langue telle qu’on la voit vivre au quotidien ». Cet article suscitera la controverse parce que les auteurs, désireux de rendre justice « à ceux qui ont su, parfois à coups de provocations, susciter ce regain d’intérêt pour corpus et méthodes statistiques dans le petit monde de la linguistique informatique » (1995 : 69), indiquent en note que F. Jelinek, « alors qu’il dirigeait à IBM l’équipe de recherche sur la reconnaissance de la parole », avait déclaré : « Chaque fois que je vire un linguiste de mon équipe, la performance de notre système s’améliore de 10 % ». Une mise au point sera publiée dans le numéro suivant de TAL (37-1 : 162).

61 Le mécanisme par lequel des praticiens du TAL ont été conduits à vouloir intervenir dans le champ théorique est assez clairement mis en évidence par Steven Abney (1996a : 1). Il explique que les méthodes statistiques sont devenues prépondérantes en traitement automatique. « In the space of the last ten years, statistical methods have gone from being virtually unknown in computational linguistics to being a fundamental given. […] Statistical methods have made real progress possible on a number of issues that had previously stymied attempts to liberate systems from toy domains ; issues that include disambiguation, error correction, and the induction of the sheer volume of information requisite for handling unrestricted text. And the sense of progress has generated a great deal of enthusiasm for statistical methods in computational linguistics ». Mais, immédiatement après, il regrette qu’il n’en soit pas ainsi en linguistique. « However, this enthusiasm has not been catching in linguistics proper » (ibid.).

62 S. Abney voudrait que les travaux en traitement automatique permettent de rendre compte de la faculté de langage des êtres humains. « Nonetheless, at least some computational linguists aim to advance our scientific understanding of the human language faculty by better understanding the computational properties of language. One of the most interesting and challenging questions about human language computation is just how people are able to deal so effortlessly with the very issues that make processing unrestricted text so difficult. Statistical methods provide the most promising current answers, and as a result the excitement about statistical methods is also shared by those in the cognitive reaches of computational linguistics » (ibid.).

63 Fernando Pereira, qui a été un acteur incontestable du TAL théorique – il a coécrit, avec David Warren, l’article fondateur des DCG – a une attitude assez proche de celle de S. Abney. Il observe que les méthodes statistiques, qui sont à la base de la théorie de l’information, sont revenues en force en traitement automatique. « Today, after many years on the defensive, the information-theoretic approach is again thriving and has led to practical successes in speech recognition, information retrieval, and, increasingly, in language analysis and machine translation » (Pereira 2000 : 1240). Et il souhaite concilier une approche statistique avec les modèles issus de la linguistique formelle, notamment afin de rendre compte de l’acquisition du langage, définissant un programme « in which computational models constrained by grammatical considerations define broad classes of possible grammars, and information-theoretic principles specify how those models are fitted to actual linguistic data » (ibid. : 1250).

64 C’est bien l’existence de travaux en traitement automatique qui a motivé la volonté, du moins chez Abney, Pereira et quelques autres, de promouvoir une linguistique où statistiques et corpus jouent un rôle central [6].

3.3. Questions sur le TAL

65 La question déterminante qui se pose par conséquent est celle d’une juste caractérisation épistémologique du TAL, de la place respective du TAL et de la recherche en linguistique. Un certain nombre d’auteurs, en effet, s’emploient à ne pas distinguer clairement traitement automatique et recherche en linguistique, voire à mettre la recherche en linguistique à la remorque du traitement automatique. Afin de clarifier la question, on peut essayer de reprendre certains arguments que Karl R. Popper a avancés afin de combattre la position épistémologique des « instrumentalistes ». « L’instrumentalisme peut se définir ainsi : c’est l’affirmation que les théories scientifiques – celle des sciences “pures” – ne sont rien d’autre que des règles de calcul (ou d’inférence), dont la nature serait essentiellement identique à celle des sciences “appliquées” (on pourrait même dire que selon la thèse instrumentaliste, la dénomination de “science pure” est incorrecte et que toute science est “appliquée”) » (Popper 1985 : 170).

66 Pour Popper, à l’inverse, « il existe de profondes différences entre les théories “pures” et les règles de calcul d’ordre technique » (ibid.). « Les relations logiques que l’on peut établir entre théories et règles de calcul ne sont pas symétriques ; qui plus est, elles ne sont pas du même ordre que celles qui peuvent lier différentes théories ou encore les diverses règles de calcul. On ne met pas à l’épreuve des règles de calcul de la même manière qu’on teste des théories […]. Dans le cas des instruments ou des règles de calcul, il n’existe aucun élément dont la nature soit suffisamment proche de celle des tests. Un instrument peut assurément cesser d’être utilisable ou bien il peut être dépassé. Mais cela n’a guère de sens de dire que nous soumettons un instrument aux tests les plus sévères que nous puissions concevoir afin de le rejeter s’il ne résiste pas à ces tests : pour toute cellule d’avion, par exemple, on peut “pousser les essais jusqu’à la rupture” et pourtant, on ne procède pas à des essais rigoureux pour éliminer la cellule après rupture mais pour obtenir des informations à son sujet (c’est-à-dire pour tester une théorie la concernant), de manière à l’utiliser en restant dans les limites des conditions de son utilisation (ou de la sécurité) » (ibid. : 172).

67 On peut penser à l’évaluation des outils du TAL (robuste), telle qu’elle est pratiquée. Il ne s’agit pas de corroborer ou de réfuter des théories, mais de déterminer quel est le meilleur outil qui réponde à une tâche donnée : « les instruments, voire les théories dans la mesure où on les tient pour des instruments, ne sauraient être réfutés. L’interprétation instrumentaliste sera donc impuissante à rendre compte des tests véritables que sont les tentatives de réfutation et se contentera d’affirmer que des théories différentes ont des champs d’application différents. » « Si les théories ne sont que de purs et simples instruments destinés à formuler des prédictions, aucune théorie particulière n’est à rejeter, même si nous estimons qu’il n’existe pas d’interprétation physique cohérente du formalisme qu’elle mobilise » (ibid. : 173).

68 La grande tolérance des praticiens du TAL envers diverses approches théoriques, pourvu qu’elles donnent lieu à des applications efficaces, s’explique et se justifie très bien si on adopte le point de vue de l’ingénierie. Elle n’a pas lieu d’être dès lors qu’on se place dans une perspective de recherche scientifique.

CONCLUSION

69 La volonté d’ériger ce que d’aucuns appellent la linguistique de corpus au rang d’une nouvelle linguistique est issue, au moins en partie, des travaux de TAL stochastique. Tout s’est passé comme si les auteurs de ces travaux avaient voulu se donner une assise linguistique, en référence à l’époque où le TAL théorique s’appuyait sur la linguistique formelle.

70 On peut se demander si les causes de ce glissement ne relèvent pas davantage de la sociologie de la science que de la logique scientifique elle-même. La réalisation de logiciels de TAL robuste est un objectif qui permet aux laboratoires de collaborer avec des entreprises, et par là même d’obtenir des crédits, de financer des doctorats, d’embaucher des jeunes chercheurs. Mais, parallèlement, les laboratoires et leurs membres ont à justifier une position dans le champ de la recherche fondamentale, qu’ils ne peuvent déserter. La tentative de concilier ces deux exigences quelque peu contradictoires a pu ainsi être à la source d’un brouillage des enjeux épistémologiques.

Références

ABNEY S. 1996a. « Statistical Methods and Linguistics ». Klavans J., Resnik Ph. (éds), The Balancing Act. Cambridge : The MIT Press, 1-26.
ABNEY S. 1996b. « Partial Parsing via Finite-State Cascades ». Natural Language Engineering 2 (4), 337-344.
ALPAC 1966. Language and Machines. Computers in translation and linguistics. A report by the Automatic Language Processing Advisory Committee (ALPAC). National Academy of Sciences, National Research Council.
BRILL E. 1995. « Transformation-Based Error-Driven Learning and Natural Language Processing : A Case Study in Part-of-Speech Tagging ». Computational Linguistics, 21 (4), 543-565.
CORI M., MARANDIN J.-M. 1997. « Un calcul de préférence en syntaxe ». Revue Internationale de Systémique, 11 (1), 49-67.
CORI M., MARANDIN J.-M. 2001. « La linguistique au contact de l’informatique : de la construction des grammaires aux grammaires de construction ». Histoire Épistémologie Langage, 23 (1), 49-79.
CORI M., LÉON J. 2002. « La constitution du TAL. Étude historique des dénominations et des concepts ». TAL, 43 (3), 21-55.
DAILLE B. 1995. « Repérage et extraction de terminologie par une approche mixte statistique et linguistique ». TAL, 36 (1-2), 101-118.
DAILLE B., ROMARY L. 2001, « Éditorial ». TAL, 42 (2), 343-346.
EL-BÈZE M., SPRIET Th. 1995. « Intégration de contraintes syntaxiques dans un système d’étiquetage probabiliste ». TAL, 36 (1-2), 47-66.
HABERT B. 1995. « Introduction ». TAL, 36 (1-2), 3-5.
JARDINO M., El-Bèze M. 2003. « Modélisation probabiliste du langage naturel ». TAL, 44 (1), 7-10.
JURAFSKY D., WOOTERS Ch., TAJCHMAN G., SEGAL J., STOLCKE A., FOSLER E., MORGAN N. 1994. « The Berkeley Restaurant Project ». Proceedings International Conference on Spoken Language Processing, 4, 2139-2142.
JURAFSKY D., MARTIN J. H. 2000. Speech and Language Processing. Upper Saddle River : Prentice Hall.
KERNIGHAN M., CHURCH K., GALE W. 1990. « A Spelling Correction Program Based on a Noisy Channel Model ». Proceedings of COLING 1990, 205-210.
LANGÉ J.-M., GAUSSIER E. 1995. « Alignement de corpus multilingues au niveau des phrases ». TAL, 36 (1-2), 67-80.
MERIALDO B. 1995. « Modèles probabilistes et étiquetage automatique ». TAL, 36 (1-2), 7-22.
MILLER Ph., TORRIS T. 1990. Formalismes syntaxiques pour le traitement automatique du langage naturel. Paris : Hermès.
PEREIRA F. 2000. « Formal Grammar and Information Theory : Together Again ? ». Sparck Jones K. I. B., Gazdar G. J. M., Needham R. M. (éds), Computers, Language and Speech : Formal Theories and Statistical Data. The Royal Society, 1239-1253.
PEREIRA F., WRIGHT R. N. 1997. « Finite-State Approximation of Phrase-Structure Grammars ». Roche E., Schabes Y. (éds), Finite-State Language Processing. Language, Speech and Communication. Cambridge : The MIT Press, 149-174.
POPPER K. R. 1956 [1985]. « Trois conceptions de la connaissance ». Conjectures et réfutations. Paris : Payot.
STA J.-D. 1995. « Comportement statistique des termes et acquisition terminologique à partir de corpus ». TAL, 36 (1-2), 119-132.
Revues
Computational Linguistics : Special Issue on Computational Linguistics Using Large Corpora. 1993. 19 (1-2).
TAL : Traitements probabilistes et corpus. 1995. 36 (1-2).
TAL : Linguistique de corpus. 2001. 42 (2).
TAL : Modélisation probabiliste du Langage Naturel. 2003. 44 (1).

Date de mise en ligne : 01/01/2010

https://doi.org/10.3917/lang.171.0095

Compte personnel

Des méthodes de traitement automatique aux linguistiques fondées sur les corpus

Notes

Citer cet article

Notes

INTRODUCTION

1. TAL ROBUSTE CONTRE TAL « THÉORIQUE »

1.1. Un parcours historique rapide

1.2. Ce qui fonde le TAL robuste

1.2.1. La critique du TAL théorique

1.2.2. Les critères du TAL robuste

1.2.3. Les méthodes du TAL robuste

2. LES MÉTHODES STOCHASTIQUES

2.1. Une méthodologie générale

2.2. Une correction orthographique

2.3. La méthode des n-grammes

2.4. Observations

3. LES DÉRIVÉS THÉORIQUES

3.1. Quelle dénomination ?

3.2. Du TAL à la linguistique

3.3. Questions sur le TAL

CONCLUSION

Références

Accès institutions

Toutes les institutions