Réseaux 2020/4 N° 222

Couverture de RES_222

Article de revue

Thierry POIBEAU, Babel 2.0 : où va la traduction automatique ?, Paris, Odile Jacob, 2019, 216 p.

Pages 199 à 204

English version
Versión en español

1Dans son ouvrage Babel 2.0 : où va la traduction automatique ?, Thierry Poibeau, directeur de recherche au CNRS en linguistique informatique, dresse un état des lieux de la traduction automatique, des premières réflexions théoriques aux derniers développements en cours. L’auteur revient sur les grands enjeux, aussi bien commerciaux et politiques que scientifiques, associés à ce champ de recherche, né dans les années 1940 et en pleine expansion depuis le début des années 1990.

2Thierry Poibeau montre comment la traduction automatique s’est posée, au fil du temps, comme un problème syntaxique, sémantique, ou encore cryptographique. Bien qu’étant une préoccupation ancienne – remontant à la fin du XVIIe siècle avec les travaux de Leibniz et Descartes –, la traduction automatique n’a jamais fait l’objet d’une définition consensuelle et universelle. Ce point est évoqué dès les chapitres introductifs : si l’interprétation du sens des mots dans une phrase est quelque chose de « naturel » pour un humain, il en va autrement lorsque cette tâche est automatisée. Les différents systèmes de traduction automatique se sont ainsi heurtés à l’ambiguïté du langage et à la difficulté de faire « comprendre » un texte à une machine. Cette problématique, au cœur de la traduction automatique, se dessine en creux lors de la présentation des différentes méthodes développées dans le champ de la traduction automatique, avant d’être reposée explicitement dans l’avant-dernier chapitre, sur l’évaluation de la traduction.

3La majeure partie de l’ouvrage suit une structure chronologique, la plupart des chapitres revenant sur une période spécifique ou un élément majeur de l’histoire de la traduction automatique. Ce découpage permet, au-delà d’une simple énumération des méthodes existantes, de comprendre le contexte de l’émergence, et parfois des passages à vide, de la traduction automatique. Thierry Poibeau revient ainsi sur les enjeux politiques, comme la guerre froide et la construction européenne, mais aussi commerciaux et financiers, avec des acteurs pionniers comme IBM et Systran, et enfin techniques, avec l’augmentation des capacités de calcul des ordinateurs, qui expliquent, sinon où va la traduction automatique, du moins d’où elle vient. Ce panorama historique très complet rend compte de la multitude d’acteurs, scientifiques, commerciaux ou politiques, aussi bien européens, étasuniens et canadiens que russes ou japonais, qui travaillent parfois en parallèle sur des systèmes similaires. De ce fait, si certains chapitres entrent plus en détail dans le fonctionnement des principaux systèmes de traduction automatique, Babel 2.0 n’est pas un manuel technique mais plutôt une introduction à l’histoire de ce domaine et à ses principales avancées. L’ouvrage est ainsi accessible à toute personne intéressée par la traduction automatique, ou plus généralement par le traitement automatique du langage, même sans connaissance préalable. La section bibliographique, commentée et organisée par chapitre, permet au lecteur curieux d’approfondir les notions abordées dans le livre.

4Dans les chapitres 3 à 9, l’auteur décrit les étapes historiques de la naissance et des transformations de la traduction automatique. Pendant longtemps, la traduction automatique consiste à assembler des fragments ou expressions préalablement traduits de façon à obtenir une phrase linguistiquement correcte. La traduction se fait d’abord à partir de dictionnaires ad hoc, puis progressivement, avec l’arrivée d’internet et de nouvelles capacités de mémoire au début des années 1990, à l’aide de corpus multilingues disponibles en ligne. En effet, internet permet la mise à disposition de textes similaires avec leur traduction dans d’autres langues, qu’il s’agisse des textes officiels de pays multilingues ou de sites web traduits dans plusieurs langues. Les pays ou organisations ayant plusieurs langues officielles, comme le Canada ou l’Union européenne, ont joué un rôle pionnier dans ce domaine, en donnant accès à des bases de données riches, par exemple le Hansard, un corpus recensant les débats parlementaires canadiens en anglais et en français. Ces corpus multilingues servent de textes de référence, qui sont ensuite alignés au niveau des phrases, de façon à pouvoir retrouver, pour chaque groupe de mots dans la langue source (la langue à traduire), son équivalent dans la langue cible (la langue traduite).

5À la fin des années 1980, sous l’impulsion d’un centre de recherche lancé par IBM, de nouvelles techniques exploitent la dimension statistique des langues, c’est-à-dire leur régularité, pour calculer la probabilité d’une expression dans la langue cible d’être la traduction d’une expression donnée dans la langue source. Avec ces méthodes, basées sur un alignement des corpus au niveau des mots et non plus seulement des phrases, la traduction automatique est grandement améliorée d’un point de vue technique. Cependant, la phase d’assemblage des fragments traduits en une phrase correcte reste peu performante et les résultats décevants. Ce n’est que très récemment, au milieu des années 2010, que la traduction neuronale par apprentissage profond (deep learning en anglais) supprime le problème de l’assemblage des phrases en considérant la phrase non plus comme un ensemble d’expressions mais comme un tout. Est alors pris en compte, pour chaque mot du corpus, le contexte dans lequel celui-ci est employé (méthode du « plongement de mots » ou word embedding). La traduction neuronale renvoie ici à un algorithme d’apprentissage qui imite le comportement des réseaux de neurones biologiques.

6Cette nouvelle approche gère beaucoup mieux les termes ambigus en considérant le contexte dans lequel les mots sont employés, par exemple en définissant une « fenêtre » de n mots autour de l’expression considérée. En construisant une matrice de co-occurrence des mots, c’est-à-dire en calculant la fréquence avec laquelle certains mots sont employés au sein d’une « fenêtre », l’algorithme identifie différents contextes dans lesquels ceux-ci peuvent apparaître. Cette phase d’« apprentissage » permet ensuite, en situation de traduction, d’interpréter le sens des mots selon le contexte le plus probable. D’après l’auteur, le succès fulgurant de l’approche neuronale, à laquelle les acteurs principaux du domaine (Google, Bing, Facebook, Systran…) se sont convertis dès 2016, s’explique avant tout par la nécessité d’un changement de paradigme, alors que les méthodes précédentes butaient sur l’assemblage des phrases.

7Les deux derniers chapitres, dont l’un se penche sur l’évaluation de la traduction automatique tandis que le second décrit le marché de la traduction automatique, ne suivent plus un découpage chronologique mais thématique. On peut par conséquent regretter que ceux-ci paraissent parfois déconnectés du reste de l’ouvrage. Certains des éléments qui y sont présentés, notamment le partenariat de l’entreprise Systran avec la Commission européenne, sont déjà abordés dans les chapitres de nature plus historique. Néanmoins, le chapitre sur l’évaluation est l’occasion pour l’auteur de revenir sur les difficultés de définir une « bonne » traduction, mais aussi d’estimer la qualité de la traduction automatique, aujourd’hui et dans un futur proche. Pour Thierry Poibeau, établir ce bilan est plus compliqué qu’il n’y paraît. Premièrement, la qualité des traductions automatiques est très dépendante des langues considérées. Les méthodes actuelles se basant sur une phase d’apprentissage sur des masses de données disponibles en ligne, celles-ci fonctionnent mieux sur des langues répandues sur internet, et tout particulièrement l’anglais.

8Ensuite, si l’on peut aujourd’hui obtenir des traductions automatiques de bonne qualité, il ne faut en aucun cas les comparer à la traduction littéraire, effectuée par des humains. D’abord, les systèmes de traduction automatiques ne font que reprendre les expressions trouvées dans les corpus d’apprentissage et ne peuvent donc pas produire de traductions originales. De plus, la comparaison n’a aucun sens puisque les deux types de traduction n’ont pas les mêmes objectifs, la traduction automatique devant fonctionner en « temps réel ». Cette dernière, pour l’auteur, n’est ainsi guère envisageable pour les textes à vocation littéraire. Thierry Poibeau ajoute que cette évolution ne serait de toute façon pas souhaitable. Ce dernier argument est répété plusieurs fois dans l’ouvrage, comme si l’auteur cherchait à rassurer son lectorat, mais sans jamais expliciter ce point plus précisément. Il aurait pourtant été intéressant d’ouvrir le débat, alors même que l’ouvrage s’achève en soulignant que la traduction automatique n’en est encore qu’à ses débuts, et qu’elle a manifestement, avec les objets connectés ou encore les applications de messagerie, un bel avenir devant elle.

bb.footer.alt.logo.cairn

Cairn.info, plateforme de référence pour les publications scientifiques francophones, vise à favoriser la découverte d’une recherche de qualité tout en cultivant l’indépendance et la diversité des acteurs de l’écosystème du savoir.

Avec le soutien de

Retrouvez Cairn.info sur

18.97.9.171

Accès institutions

Rechercher

Toutes les institutions