Notes
-
[*]
Ce travail a bénéficié du soutien de l’ANR dans le cadre du projet Democrat (ANR-15-CE38-0008).
-
[1]
同指 (co-référence) 回指指的是,两个语言成分是指同一个人或者物。
-
[2]
Les exemples de cet article proviennent de notre corpus, textes encyclopédiques issus de Wikipédia et Baidubaike, collectés en 2020. Les exemples en chinois sont accompagnés des gloses et de notre traduction.
-
[3]
Notre étude porte sur le français proprement dit et le chinois mandarin, langues officielles de chacun des pays. Les variations dialectales ne sont pas discutées dans cet article.
-
[4]
Wikipédia (https://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Accueil_principal, dernière consultation : janvier 2021) est un projet d’encyclopédie « collective en ligne, universelle et multilingue ». En mars 2018, la version française de Wikipédia comptait presque deux millions d’articles.
-
[5]
Baidubaike (百度百科, https://baike.baidu.com/, dernière consultation : janvier 2021) est reconnu comme la plus grande encyclopédie collective chinoise en ligne. Le projet a officiellement démarré en 2008. En octobre 2020, Baidubaike comptait plus de 21 millions d’articles.
-
[6]
Le nombre de mots en chinois est calculé par AiHanYu selon les algorithmes des règles lexico-morphologiques (http://www.aihanyu.org/cncorpus/index.aspx, dernière consultation : juillet 2021).
-
[7]
SACR (Script d’Annotation des Chaînes de Référence) : http://boberle.com/projects/sacr/index.html, dernière consultation : janvier 2021.
-
[8]
Cf. Schnedecker (1997, 2014, 2017, 2021), Longo et Todirascu (2014), Todirascu et al. (2017), Oberlé et al. (2018).
-
[9]
Densité référentielle : Nombre de maillons / Nombre de mots.
-
[10]
CRViewer : http://boberle.com/projects/crviewer/index.html, dernière consultation : janvier 2021.
Introduction
1 Une chaîne de référence (désormais CR) est caractérisée par une suite de trois ou plus de trois expressions coréférentielles, appelées maillons (cf. notamment Chastain, 1975 ; Corblin, 1985 ; Charolles, 1988 et Schnedecker, 1997, 2021). Pour le chinois, à notre connaissance, seul Xu (2010 : 333) propose de définir la coréférence comme « deux signes linguistiques renvoyant à une même personne ou un même objet » [1] (notre traduction), définition qui coïncide avec celle proposée pour d’autres langues comme l’anglais et le français. Par exemple, les maillons des CR la girafe et 骆驼 (‘chameau’) sont balisés entre crochets dans les extraits [1] et [2] [2].
2 Les textes encyclopédiques (désormais TE) sont définis comme un type de texte informatif, dont l’objectif est de « classer les connaissances humaines » (Pinault-Sorensen, 1993) et de « diffuser un état de connaissances scientifiques » (Oberlé et al., 2018 : 124). Il s’agit d’un genre de texte « relevant du genre documentaire visant à transmettre et construire des savoirs, tournés vers ‘l’extérieur’ des communautés scientifiques qui les produisent » (Beacco, 2000 : 17). À notre connaissance, peu d’auteurs mentionnent les caractéristiques des CR dans les TE en français et peu d’études comparent les CR a fortiori dans les TE du point de vue contrastif (cf. Schnedecker, 2014 ; Oberlé et al., 2018 et Kim, à paraître).
3 D’un côté, la composition des CR dans les TE attirent notre attention pour leur structure textuelle différente d’autres genres discursifs. Les TE comportent des séquences de description et d’information plutôt que des séquences de narration (Oberlé et al., 2018 : 125). Par exemple, pour ce qui a trait à la composition, les CR dans les textes scientifiques présentent « plus de disparité » et sont « de taille plus petite » par rapport aux textes de fiction (Schnedecker, 2021 : 164). Par ailleurs, les TE se distinguent d’autres genres informatifs. Par exemple, Schnedecker (2014) signale que les CR dans l’introduction des TE sont plus longues que celles rencontrées dans les recettes de cuisine et que ces premières CR ne se succèdent pas les unes aux autres.
4 D’un autre côté, les caractéristiques typologiques respectives du français et du chinois sont susceptibles d’amener à des variations dans la composition et dans des modes de cohabitation des CR. Ce sont ces différences qui nous conduisent aux questions suivantes. Quelles variations observe-t-on entre les CR du français et du chinois dans les TE ? Quelles en sont les conséquences pour la cohésion textuelle ?
5 Dans cet article, nous cherchons donc à observer les CR dans les TE par le biais des modes construits par Schnedecker (1997, 2014, 2021), selon divers critères morpho-syntaxiques et sémantiques. Nous aborderons les caractéristiques typologiques du français et du chinois en relation avec les caractéristiques discursives des TE. Nous poursuivrons par les questions méthodologiques en précisant le choix des textes dans le corpus et le traitement des expressions référentielles (désormais ER) et des CR dans les textes choisis. Nous terminerons par la présentation des analyses contrastives et des résultats sur les variations de la composition et de la cohabitation des CR en français et en chinois.
1 – Chaînes de référence et genre encyclopédique : caractéristiques
1.1 – Caractéristiques typologiques du français et du chinois et leurs conséquences sur la composition des chaînes de référence
6 Le français et le chinois [3] appartiennent à deux familles linguistiques très différentes l’une de l’autre. Dans la plupart des classifications, la première fait partie de la famille des langues romanes, tandis que la seconde constitue à elle seule une famille linguistique sans parenté avec d’autres langues (Dubois et al., 2012 : 199). Cette différence typologique rejaillit notamment sur la catégorie grammaticale des ER, à savoir notamment les groupes nominaux (désormais GN) et les pronoms, qui composent les CR. Par exemple, à la différence du français, le chinois n’a pas d’article défini. Les référents génériques et définis sont désignés majoritairement par les GN sans déterminant (cf. Liu, 2002 ; Chen, 2015, entre autres), comme l’illustrent les expressions entre crochets dans les exemples [3] et [4].
‘Les cétacés ont un système de sonar intelligent. Ils utilisent l’écholocation qui consiste à émettre des signaux acoustiques, afin de trouver de la nourriture et de communiquer. Le sonar inventé par les humains est inspiré par celui des baleines et des dauphins. Les cétacés comptent sur leur ouïe aigüe pour vivre dans l’eau, mais les baleines à fanons et les baleines à dents montrent des différences énormes en ce qui concerne leur capacité auditive.’
7 Une autre différence concerne la proportion d’emploi des pronoms zéro anaphoriques, beaucoup plus fréquents en chinois qu’en anglais (cf. Xu, 1990 ; Huang, 2000, entre autres) et en français, comme le révèle l’extrait [5], où aucune forme lexicale ne renvoie au référent autruche, thème du texte.
‘(Les autruches) Vivent dans les prairies désertiques et les savanes en Afrique. Leurs plumes, leur peau et leur viande se vendent bien sur le marché. En raison d’une croissance rapide, d’une forte fécondité, d’une reproduction aisée et d’une forte résistance aux maladies, (elles) sont élevées dans beaucoup de pays.’
8 La troisième caractéristique morpho-syntaxique des ER en chinois concerne les modifieurs des GN. Dans l’échelle de l’accessibilité référentielle (Ariel, 1990 : 73), le modifieur constitue un facteur qui signale un degré d’accessibilité moindre que les GN qui en sont dotés. Or, la place du modifieur est variable dans chaque langue. Ceux d’un GN en français peuvent être à la fois postposés ou antéposés au nom, comme dans les forêts françaises ou une forte fécondité. En revanche, les modifieurs des GN en chinois sont toujours antéposés au nom et cet ordre est invariable, comme dans les exemples de l’énoncé [4] : 人类发明的-声呐 humain-inventé-sonar, ‘le sonar inventé par les humains’, 敏锐的-听觉 sensible-audition, ‘l’audition sensible’ et 巨大的-差别 énormes-différences, ‘des différences énormes’.
9 Concernant l’aspect intra-phrastique, le français et le chinois sont souvent analysés sur deux plans : au niveau syntaxique et au niveau pragmatique. Dans la définition typologique de Li et Thompson (1989), le français est une langue dominée par le sujet syntaxique, tandis que le chinois est dominé par le topique pragmatique. En français, la variation casuelle du pronom sert à distinguer le sujet, le complément d’objet et d’autres fonctions syntaxiques, comme je, me et moi. La position avant ou après le verbe marque également la fonction. En chinois, langue dépourvue de marquage casuel, les fonctions syntaxiques sont moins identifiables. En effet, le verbe en chinois se présente souvent avec la même forme lexicale que celle du nom, comme 通讯 pour ‘communication’ et ‘communiquer’ et 发明 pour ‘invention’ et ‘inventer’, raison pour laquelle il est souvent difficile de le repérer dans la phrase. En outre, le verbe n’est pas un élément obligatoire d’une phrase en chinois. Comme l’illustre l’énoncé [6], une phrase peut comporter zéro verbe, un seul verbe ou plusieurs verbes. C’est, entre autres, ce qui explique que de nombreux auteurs utilisent les notions pragmatiques de topique (ce dont on parle) et commentaire (ce que l’on dit par rapport au topique), pour analyser les composants dans le cadre phrastique en chinois (cf. Li et Thompson, 1989 ; Xu, 2010 ; Fang, 2018, entre autres).
‘Le corps (des hippopotames) (est) massif et de forme ronde. Les membres (sont) courts. Les pieds comportent quatre orteils. La tête (est) grande. Les yeux et les oreilles (sont) petits. La bouche (est) particulièrement grande. La queue (est) petite. Les canines inférieures (sont) énormes. (Elles) Peuvent mesurer 50-60 cm et peser 2,5 kg. La peau (est) épaisse d’environ 40-50 mm.’
10 Les caractéristiques morpho-syntaxiques des ER des deux langues présentées dans cette section sont synthétisées dans le Tableau 1 suivant.
Récapitulatif des caractéristiques typologiques du français et du chinois
Langue | Français | Chinois |
---|---|---|
Référent générique / défini | GN défini | GN sans déterminant |
Pronom zéro anaphorique | Moindre fréquence | Forte fréquence |
Modifieur de GN | Antéposé ou postposé | Antéposé |
Composants phrastiques | Sujet, verbe, complément d’objet | Topique, commentaire |
Récapitulatif des caractéristiques typologiques du français et du chinois
1.2 – Caractéristiques discursives des textes encyclopédiques et leurs conséquences pour la composition et la cohabitation de chaînes de référence
11 À la différence des textes narratifs, les TE sont rédigés de façon impersonnelle avec une intention d’objectivité. Ils contiennent peu d’expressions personnelles, sentimentales ou subjectives comportant des commentaires tels que quelqu’un trouve que, selon l’auteur, par exemple. Le rédacteur tente de tenir une position neutre et anonyme, visant à partager des connaissances scientifiques avec un public ouvert, général et non-expert. La progression de l’information ne dépend pas de connecteurs logiques ou spatio-temporels (d’abord, ensuite, au début, à l’intérieur de, par exemple). Il y en a proportionnellement moins dans les TE que dans les textes narratifs.
12 Pour ce qui a trait à la structure, un titre général, placé au début de chaque TE, en indique le thème (aigle, autruche, par exemple) et plusieurs sous-titres divisent le texte en sous-thèmes (étymologie, description, répartition géographique, écologie et comportement, etc.) dérivant du thème général. Le titre et les sous-titres sont souvent composés d’un nom ou d’un GN sans déterminant et sans modifieur.
13 À part le titre et les sous-titres, les TE « sont découpés en paragraphes dédiés à des thèmes récurrents, ordonnés de manière assez libre » (Schnedecker, 2014 : 33). Les paragraphes sont souvent nombreux et brefs, constituant des « plans d’organisation textuelle » (Charolles, 1988 : 3). Un paragraphe peut contenir un seul ou plusieurs référents saillants (référents qui portent un haut degré d’accessibilité dans l’échelle référentielle d’Ariel, voir aussi Landragin, 2004). Les paragraphes qui sont dominés par un seul référent saillant sont appelés environnement mono-référentiel, comme c’est le cas de la CR les aigles dans le fragment [7]. D’autres référents se trouvent également dans le paragraphe (pattes, proies, vue, par exemple), mais ils ne sont pas des concurrents référentiels du référent dominant les aigles.
14 Quand un paragraphe comporte plusieurs référents saillants, environnements dits pluri-référentiels, la question se pose de savoir comment cohabitent les CR. Cinq modes de cohabitation sont distingués par Schnedecker (1997, 2021) et Schnedecker et Landragin (2014) : la succession, l’entrecroisement, la dérivation, la partition/fusion et le déroulement en parallèle.
15 La succession décrit les cas où « une chaîne disparaît dès l’instant où celle qui lui succède apparaît dans le texte » (Schnedecker et Landragin, 2014 : 14). Ce mode de cohabitation suppose que le référent dominant change à l’intérieur d’un paragraphe. Autrement dit, le référent saillant au début du paragraphe ne l’est pas à la fin du paragraphe. Ce mode concernerait quelques cas rares dépendant de la thématique des TE :
‘[…] Les tamias sont également des écureuils communs dans les régions tempérées de Chine. Ces animaux de petite taille aux rayures noires et blanches passent beaucoup de temps au sol pour se nourrir et s’attaquent souvent à de petites proies. Ils sont également friands d’écorces. Les écureuils à ventre roux, pour leur part, sont très téméraires et peuvent s’adapter aux habitats déréglés de la lisière des forêts, de sorte qu’ils peuvent également bien vivre dans les parcs urbains. […]’
16 L’entrecroisement des CR concerne les cas où deux ou plusieurs référents sont « instanciés, consécutivement et/ou simultanément, avec des modifications de leur statut syntaxique » (Schnedecker et Landragin, 2014 : 14), comme le montrent les CR référant aux baleines et carbone dans le fragment [9]. Le GN les baleines passe de la fonction syntaxique de sujet (les baleines, elles), puis ce référent est réinstancié par le biais d’un déterminant possessif dans un GN évoquant un autre référent (leur corps, leur mort) ; le GN le carbone apparaît d’abord en position de complément d’objet (stocker le carbone) et ensuite en position sujet (le carbone libéré …) à la fin du paragraphe. Les deux référents sont aussi accessibles l’un que l’autre dans le paragraphe, mais ils ont des degrés d’accessibilité différents dans chaque phrase.
17 La dérivation des CR est illustrée par les CR les rhinocéros et leurs cornes dans le fragment [10], où « l’introduction d’un nouveau référent dans un texte n’opère pas par le biais d’un GN indéfini ou d’un nom propre, mais peut dériver d’une autre CR par des moyens anaphoriques » (Schnedecker et Landragin, 2014 : 14).
18 La partition et la fusion constituent deux procédures symétriques : la partition extrait des référents individués d’un ensemble, tandis que la fusion rassemble les référents isolés dans un même ensemble. L’extrait [11] illustre une partition de la CR les singes du nouveau monde aux CR sapajous et sagouins. Le référent saillant se différencie ainsi du premier référent singes du nouveau monde à leurs deux sous-groupes.
19 Le déroulement en parallèle des CR correspond « aux cas de topiques multiples où deux référents aussi saillants l’un que l’autre sont repris en parallèle » (Schnedecker et Landragin, 2014 : 14), comme l’illustrent les CR sapajous et sajouins dans [11] et les CR les hippopotames et les baleines dans [12]. Le paragraphe comporte deux référents aussi saillants l’un que l’autre, constituant deux topiques paragraphiques parallèles.
20 Pour conclure, les CR dans les TE se distinguent à la fois de celles des textes narratifs et de celles d’autres textes informatifs. Le découpage en paragraphes et la présence des sous-titres proposent des environnements discursifs mono-référentiels et pluri-référentiels, permettant d’observer les influences du nombre de référents saillants sur la composition des CR et sur la cohabitation des CR.
2 – Méthodologie
2.1 – Sélection des textes du corpus
21 Nous avons constitué un corpus comparable échantillonné (Teubert et Čermáková, 2004), correspondant à « un ensemble de textes dans deux langues qui ne sont pas en rapport de traduction mutuelle mais qui traitent du même domaine étroit et qui relèvent du même registre linguistique » (Habert, 2005 : 91). Les encyclopédies ouvertes en ligne, comme Wikipédia [4] et Baidubaike [5], proposent des TE en diverses langues.
22 Les TE traitant du thème des animaux ont été choisis pour deux raisons. En premier lieu, ces textes portent sur des thèmes faciles à comprendre. Cela évite des erreurs sur l’identification du référent que pourrait provoquer la terminologie de certains autres domaines, comme la chimie, le droit, etc. En second lieu, les TE animaliers sont assez nombreux, permettant ainsi de constituer un corpus de textes de longueur similaire dans les langues qui nous concernent. Après avoir passé en revue plus d’une centaine d’articles consacrés aux animaux, nous avons finalement retenu quarante articles d’une longueur comparable portant sur vingt animaux identiques dans les deux langues. L’ensemble des quarante articles représente en tout 245 000 signes en français et 25 3000 signes en chinois, correspondant à 36 000 mots en français et 57 000 mots en chinois [6], comme le synthétise le Tableau 2 infra. En tout, 6 639 maillons ont été repérés dans l’ensemble du corpus, 3 892 maillons en chinois et 2 737 maillons en français. Ils renvoient à 722 référents, correspondant donc au même nombre de CR.
Présentation du corpus
Langue | Français | Chinois | Total | |
---|---|---|---|---|
Nombre de textes | 20 | 20 | 40 | |
Nombre de mots | Total | 36 102 | 56 964 | 93 066 |
Moyenne par texte | 1 805,1 | 2 848,2 | - | |
Nombre de paragraphes | Total | 650 | 591 | 1 241 |
Moyenne par texte | 32,5 | 29,6 | - | |
Nombre de maillons | Total | 2 737 | 3 892 | 6 639 |
Dans les CR principales | 1 194 | 1 446 | 2 640 | |
Dans les CR secondaires | 1 543 | 2 450 | 3 993 | |
Nombre de CR | Total | 326 | 396 | 722 |
CR principales | 20 | 20 | 40 | |
CR secondaires | 306 | 376 | 682 |
Présentation du corpus
23 Les CR sont classées en CR principales (i.e. CR du thème de texte) et CR secondaires (i.e. toutes les CR autres que les CR principales) (cf. Oberlé et al., 2018) en fonction de leur accessibilité discursive dans chacun des textes. Les CR dites principales renvoient au référent du titre de l’article. Les CR dites secondaires renvoient quant à elles aux référents autres que le thème du texte. Par exemple, dans l’article sur la girafe, la CR principale correspond au thème girafe. Les autres CR, comme son long cou, sa nourriture et le zoo, constituent des CR secondaires. Les vingt CR principales correspondent aux vingt thèmes d’article. Les CR secondaires sont plus nombreuses, 306 en français et 376 en chinois.
2.2 – Traitement et annotation du corpus
24 Une fois les articles choisis, nous avons délimité les expressions coréférentielles à l’aide de l’outil d’annotation SACR [7], comme l’illustre la Figure 1. Les maillons sont d’abord nommés par le nom du référent, comme autruche, élevage, plumes, etc. Ils sont ensuite annotés pour trois caractéristiques morpho-syntaxiques et sémantiques : la catégorie morpho-syntaxique, la fonction syntaxique et la caractéristique de référent.
Capture d’écran montrant les modalités d’annotation de l’outil SACR
Capture d’écran montrant les modalités d’annotation de l’outil SACR
25 Concernant les caractéristiques morpho-syntaxiques, les ER sont annotées selon cinq types : les expressions nominales se divisent en GN+modifieur et GN-modifieur, et les expressions non nominales sont annotées comme pronom, déterminant possessif et pronom zéro, comme l’indiquent les annotations figurant entre crochets dans les énoncés [13]-[22].
[长颈鹿]GN-modifieur | 是 [非洲]GN-modifieur | 特有的 动物。 |
[girafe]GN-modifieur | être [Afrique]GN-modifieur | particulier animal |
‘La girafe est un animal qui vit uniquement en Afrique.’ |
它 | 不 | 能 | 做 | [长 | 距离 | 奔跑]GN+modifieur。 |
Il | NEG | pouvoir | faire | [long | distance | course]GN+modifieur |
‘Elle ne peut pas courir de longues distances.’ |
[这]Pronom | 是[…] | 常用的 | 运动 | 方式。 |
[cela]Pronom | être | habituel | se-déplacer | façon |
‘Cela constitue sa façon habituelle de se déplacer.’ |
‘Derrière ses oreilles et ses yeux poussent encore deux paires de cornes qui ne sont pas très visibles.’
‘La girafe est un animal qui vit uniquement en Afrique, (elle) a une relation de parenté avec le cerf et le taureau.’
26 Ensuite, sur le plan phrastique, la fonction syntaxique est annotée pour chaque maillon. Nous avons distingué entre sujet et autre, comme l’illustrent les annotations figurant entre crochets dans [23] et [24]. Les sujets des deux langues partagent certains points communs. Ainsi, le sujet apparaît sous la forme d’un GN, d’un pronom ou d’un pronom zéro en début de phrase ; il porte la fonction référentielle ; il est souvent antéposé au verbe. Néanmoins, le français et le chinois présentent aussi des différences quant au marquage du sujet. Par exemple, le verbe en français s’accorde au sujet, tandis que celui en chinois ne s’accorde pas.
‘La girafe mange les jeunes feuilles situées à proximité du tronc de l’arbre.’
27 Enfin, le troisième facteur annoté concerne les caractéristiques référentielles du nominal. De nombreux auteurs proposent des classifications des ER, comme la référence définie et indéfinie, la référence spécifique et non spécifique, la référence générique et non générique (cf. notamment Schwarz, 1979 ; Kleiber, 2001 ; Charolles, 2002 ; Chen, 2015). Sachant que les TE ont pour objectif de présenter les types et les classes d’objets sous les mêmes nominations linguistiques, les TE proposent de bons contextes discursifs pour observer les ER génériques. Ainsi, deux caractéristiques référentielles sont distinguées : référent générique et référent non générique, comme l’illustrent les annotations entre crochets dans [25] et [26]. Les sous-types de référence non génériques sont nombreux, y compris la référence singulière, quantitative, définie, indéfinie, spécifique, etc.
‘Aujourd’hui au nord de l’Europe, on ne compte plus qu’environ 2 800 Samiens qui sont partiellement nomades et vivent de l’élevage des rennes.’
28 La grille d’annotation est synthétisée dans le Tableau 3 infra.
Propriétés morpho-syntaxiques et référentielles des maillons annotés
Forme morpho-syntaxique | Fonction syntaxique | Caractéristique référentielle |
---|---|---|
GN+modifieur GN-modifieur Pronom Déterminant possessif Pronom zéro | Sujet Autres fonctions | Référent générique Référent non générique |
Propriétés morpho-syntaxiques et référentielles des maillons annotés
2.3 – Corpus construit
29 À partir des annotations (cf. Tableau 2, supra), les paramètres suivants [8] sont calculés pour décrire les CR : (i) le nombre moyen de CR par texte, (ii) le nombre moyen de maillons par texte, (iii) la longueur moyenne de CR, (iv) la longueur moyenne de la CR principale, (v) la longueur moyenne de la CR secondaire et (vi) la densité référentielle [9], comme le montre le Tableau 4, infra.
Présentation chiffrée des chaînes de référence dans le corpus
Français | Chinois | |
---|---|---|
(i) Nombre moyen de CR par texte | 16,3 | 19,8 |
(ii) Nombre moyen de maillons par texte | 136,9 | 194,6 |
(iii) Nombre moyen de maillons par CR | 9,4 | 10,1 |
(iv) Nombre moyen de maillons par CR principale | 59,7 | 72,3 |
(v) Nombre moyen de maillons par CR secondaires | 5,0 | 6,5 |
(vi) Densité référentielle | 7,58 % | 6,83 % |
Présentation chiffrée des chaînes de référence dans le corpus
30 Certaines données présentent des décalages importants entre les deux langues tandis que d’autres sont plutôt similaires. La moyenne du nombre de CR par texte est de 16,3 en français et de 19,8 en chinois. Le nombre moyen de maillons par texte est de 136,9 maillons en français contre 194,6 en chinois, ce qui est beaucoup plus élevé. On observe une grande différence au niveau de la longueur moyenne de la CR principale : 59,7 maillons en français contre 72,9 en chinois. La longueur moyenne des CR, toutes CR confondues, est presque identique : 9,4 maillons en français et 10,1 en chinois. Par rapport aux CR principales, les CR secondaires sont beaucoup plus courtes et comportent un nombre de maillons similaire en moyenne, à savoir 5,0 maillons en français et 6,5 maillons en chinois.
31 Comme les chiffres dépendent de la longueur des textes, la densité référentielle, qui indique le nombre de maillons pour cent mots, est plus représentative. Elle atteint 6,83 % en chinois, chiffre proche du français quoiqu’un peu moins élevé que celui du français (7,58 %). Cela signifie que les passages de cent mots contiennent 7,58 maillons en français, alors qu’en chinois ils ne contiennent que 6,83 maillons.
3 – Résultats
3.1 – Composition des chaînes de référence selon trois volets
32 À l’aide de l’outil d’analyse CRViewer [10], trois types de paramètres ont été appliqués aux CR dans le corpus. Dans cette section la composition des CR sera présentée ainsi selon ces trois paramètres.
33 À l’issue de l’annotation des formes morpho-syntaxiques des maillons, divers écarts entre les deux langues sont observés à un double niveau : celui de la totalité des CR et celui des CR principales. Les pourcentages de chaque forme sont indiqués dans le Tableau 5, infra.
34 En premier lieu, dans la totalité des CR du corpus, le GN-modifieur est la forme la plus fréquente, quelle que soit la langue, totalisant 55,8 % en français et 62,3 % en chinois. En français, les pronoms et les déterminants possessifs se trouvent respectivement à la deuxième et à la troisième place, dans des proportions assez proches, les premiers à 18,1 % et les seconds à 14,1 %. Or, ces deux formes sont beaucoup moins fréquentes en chinois, qui comporte seulement 5,1 % de pronoms et 4,1 % de déterminants possessifs, qui sont les deux formes les moins utilisées en chinois. Les GN+modifieur et les pronoms zéro en français se trouvent à la quatrième et à la cinquième place. Les GN+modifieur sont moins nombreux, occupant des proportions similaires dans les deux langues, 9,3 % en français et 10,7 % en chinois. Pour les pronoms zéro, une grande variation est toutefois observée d’une langue à l’autre. Les pronoms zéro constituent la catégorie la moins fréquente en français (2,7 %), alors qu’en chinois ils représentent une proportion beaucoup plus élevée, soit 17,8 %. Ils occupent la deuxième place en chinois, juste après celle des GN-modifieur.
35 Les proportions similaires des GN-modifieur et des GN+modifieur dans les deux langues suggèrent que la position de modifieur, qu’il soit antéposé ou postposé, n’influence pas la saillance référentielle des GN en français et en chinois. Les écarts observés entre les deux langues pour les pronoms, déterminants possessifs et pronoms zéro montrent que l’emploi des pronoms et des déterminants possessifs est plus fréquent en français par rapport à celui des pronoms zéro en chinois.
36 En second lieu, pour ce qui est des CR principales, la plupart des formes donnent des proportions similaires par rapport à celles de la totalité des CR du corpus, comme le GN-modifieur (55,9 % en français et 56,1 % en chinois), le déterminant possessif en français (13,8 %) et le pronom en chinois (6,9 %). Certaines formes présentent une proportion plus élevée ou plus basse qui est assez remarquable par rapport à celles de la totalité des CR du corpus. Par exemple, les pronoms en français augmentent de 18,1 % à 25,6 %, alors que les pronoms zéro en chinois s’élèvent encore plus fortement de 17,8 % à 32,6 %. Ces écarts attestent un usage plus fréquent des pronoms en français et des pronoms zéro en chinois pour les référents saillants. Les déterminants possessifs en chinois diminuent de 4,1 % à seulement 2,8 %. Les pronoms zéro en français baissent légèrement de 2,7 % à 1,6 %. Les GN+modifieur réduisent très fortement : seulement 3,1 % en français et 1,6 % en chinois. Ce sont les formes les moins utilisées en ce qui concerne les référents saillants.
Distribution des formes morpho-syntaxiques de maillons en français et en chinois
Langue | Français | Chinois | ||
---|---|---|---|---|
Forme | Dans le corpus | Dans la CR principale | Dans le corpus | Dans la CR principale |
GN-modifieur | 55,8 % | 55,9 % | 62,3 % | 56,1 % |
Pronom | 18,1 % | 25,6 % | 5,1 % | 6,9 % |
Déterminant possessif | 14,1 % | 13,8 % | 4,1 % | 2,8 % |
GN+modifieur | 9,3 % | 3,1 % | 10,7 % | 1,6 % |
Pronom zéro | 2,7 % | 1,6 % | 17,8 % | 32,6 % |
Distribution des formes morpho-syntaxiques de maillons en français et en chinois
37 D’après les chiffres absolus (cf. Tableau 4, supra), les CR principales sont en moyenne plus longues en chinois (72,3 maillons) que celles du français (59,7 maillons), ce qui suggère que le thème de l’article est repris plus souvent en chinois qu’en français afin de permettre aux lecteurs d’accéder au référent thématique. Or, 32,6 % de maillons en chinois sont constitués par des pronoms zéro, tandis que seulement 1,6 % le sont en français, ce qui nous amène à conclure que les CR principales en chinois sont plus longues mais contiennent en grande partie des maillons non exprimés.
38 Les proportions des fonctions syntaxiques des maillons sont enregistrées dans le Tableau 6, infra. En français, le pourcentage des maillons sujets s’élève à 39,0 % dans l’ensemble des CR et à 45,1 % dans les CR principales. L’augmentation de la proportion des sujets dans les CR principales montre une tendance à exprimer le référent dominant en position sujet. En chinois, les maillons sujets représentent une grande moitié des maillons dans la totalité des CR (54,5 %) et une majorité dans les CR principales (71,8 %). Ce dernier pourcentage est beaucoup plus élevé que celui de la totalité des CR, suggérant la même tendance à l’encodage du référent saillant comme sujet en chinois, tendance qui est encore plus frappante qu’en français.
Fonctions syntaxiques des maillons
Langue | Français | Chinois | ||
---|---|---|---|---|
Fonction | Dans le corpus | Dans les CR principales | Dans le corpus | Dans les CR principales |
Sujet | 39,0 % | 42,1 % | 54,5 % | 71,8 % |
Autres fonctions | 61,0 % | 57,9 % | 45,5 % | 28,2 % |
Fonctions syntaxiques des maillons
39 En ce qui concerne les caractéristiques sémantiques des maillons, les référents génériques sont beaucoup plus nombreux que les référents non génériques en raison du contexte encyclopédique. Les premiers offrent une proportion majoritaire : 85,2 % en français et 91,6 % en chinois, comme le révèle le Tableau 7 ci-après. La proportion majoritaire des référents génériques pourrait résulter du nombre de maillons des CR principales, qui renvoient toujours à des référents génériques. Pourtant, dans chaque langue, 14,8 % (en français) et 8,4 % (en chinois) de maillons renvoient à des référents non génériques. Ceux-ci semblent concerner dans la plupart des situations des référents définis, et plus précisément des toponymes, comme France, Afrique, Tibet, etc.
Caractéristiques sémantiques des maillons dans les chaînes de référence
Pourcentage | Français | Chinois |
---|---|---|
Référents génériques | 85,2 % | 91,6 % |
Référents non génériques | 14,8 % | 8,4 % |
Caractéristiques sémantiques des maillons dans les chaînes de référence
3.2 – Cohabitation des chaînes de référence dans deux types d’environnement textuel
40 Comme le montre le Tableau 8 infra, nous recensons 283 paragraphes en français et 382 paragraphes en chinois qui comportent soit une seule CR, à savoir les paragraphes mono-référentiels, soit plusieurs (paragraphes dits pluri-référentiels). Les paragraphes mono-référentiels sont majoritaires : 59,93 % en français et 56,96 % en chinois.
Modes de cohabitation des chaînes de référence dans les textes encyclopédiques
Nombre (pourcentage) | Français | Chinois | |
---|---|---|---|
(i) Paragraphe mono-référentiel | 169 (59,93 %) | 217 (56,96 %) | |
Paragraphes pluri-référentiels | (ii) Entrecroisement | 39 (13,83 %) | 56 (14,70 %) |
(iii) Dérivation | 35 (12,41 %) | 55 (14,44 %) | |
(iv) Partition | 14 (4,96 %) | 18 (4,72 %) | |
(v) Déroulement en parallèle | 12 (4,26 %) | 18 (4,72 %) | |
(vi) Fusion | 8 (2,84 %) | 6 (1,57 %) | |
(vii) Succession | 4 (1,42 %) | 14 (3,67 %) | |
Total | 282 | 381 |
Modes de cohabitation des chaînes de référence dans les textes encyclopédiques
41 Les cas où plusieurs CR cohabitent présentent un grand écart quant au nombre et à la proportion de chaque mode. Les cinq modes de cohabitation évoqués supra (cf. Schnedecker et Landragin, 2014) sont présents dans les deux langues étudiées. Certaines différences plus ou moins significatives s’observent entre les proportions du même mode.
42 L’entrecroisement des CR occupe la première place dans les TE : 13,83 % de modes de cohabitation en français et 14,70 % en chinois. La dérivation occupe la deuxième place : 12,41 % en français et 14,44 % en chinois. Une proportion moins importante est trouvée pour les CR qui se déroulent en parallèle : 4,26 % de cas en français et 4,72 % en chinois. La partition et la fusion, en tant que procédures symétriques, représentent respectivement 4,96 % et 2,84 % en français et 4,72 % et 1,57 % en chinois. Le mode le moins utilisé est la succession des CR qui représente seulement 1,42 % en français et 3,67 % en chinois, ce qui montre que le référent dominant change assez rarement à l’intérieur du paragraphe.
43 Le recensement des CR dans les paragraphes mono-référentiels révèle trois patrons de CR qui semblent représentatifs, comme le montre le Tableau 9 infra. Dans le premier, les maillons nominaux et non nominaux s’entrecroisent à hauteur de 76,92 % des cas en français et 74,28 % en chinois. Le deuxième patron ne contient que des maillons nominaux, avec ou sans modifieur, ce qui correspond à 14,20 % des CR en français et 20,21 % en chinois. Le troisième modèle est moins utilisé par rapport aux deux premiers. Ce sont des CR initiées par un des trois marqueurs non nominaux d’accessibilité forte : pronom, déterminant possessif et pronom zéro, représentant 8,88 % des CR en français et 5,51 % en chinois.
Trois patrons de chaînes de référence dans les textes encyclopédiques en français et en chinois
Modèle | Français | Chinois |
---|---|---|
(i) GN-modifieur – pronom / déterminant possessif / pronom zéro … (GN-modifieur) | 76,92 % | 74,28 % |
(ii) GN (+/-modifieur) – GN (-modifieur) – GN (-modifieur) … | 14,20 % | 20,21 % |
(iii) Pronom / déterminant possessif / pronom zéro – Pronom / déterminant possessif / pronom zéro … | 8,88 % | 5,51 % |
Trois patrons de chaînes de référence dans les textes encyclopédiques en français et en chinois
44 Dans le premier patron, chaque GN (la plupart sans modifieur) est repris par un à quatre marqueurs non nominaux, à savoir les pronoms, les déterminants possessifs ou les pronoms zéro. Ce patron correspond à tous les types de CR, principales comme secondaires. Il apparaît alors une seule fois dans les paragraphes courts et peut être repris plusieurs fois dans les paragraphes longs, comme le révèlent les énoncés [27] et [28]. Dans des cas rares, la CR est terminée par un maillon nominal.
‘Les chihuahuas ne peuvent pas être élevés en plein air, car ils tombent facilement malades à cause de la température trop chaude ou trop froide. Il est préférable que l’éleveur les emmène jouer, se promener et profiter du soleil quand il fait beau. Naturellement, les chihuahuas ont peur du froid et sont sujets à la pneumonie et à la polyarthrite rhumatoïde. Il faut faire très attention en hiver de les garder au chaud.’
45 Certaines CR, principales comme secondaires, ne comportent que des maillons nominaux, avec des variations de modifieur entre les maillons. Ce patron est plus souvent utilisé en chinois qu’en français. Les maillons nominaux en chinois se révèlent plus variables, comme l’illustrent les exemples [29] et [30]. Dans la CR l’oie, tous les maillons sont du type GN-modifieur avec la même tête lexicale. Or, dans la CR le chiot (de chihuahua), aucun maillon nominal n’a la même tête lexicale : 刚进入新环境的幼犬 ‘chiots qui viennent d’entrer dans un nouvel environnement’ – 犬仔 ‘chiot’ – 幼犬 ‘jeune chien’ – 狗狗 ‘toutou’.
46 Le troisième patron est réservé aux CR principales. Le sujet exprimé par un pronom, un déterminant possessif ou le sujet non exprimé, est coréférentiel au titre du texte ou au sous-titre de la section. La différence entre les deux langues concerne l’usage des pronoms et des déterminants possessifs, plus fréquents en français [31], ou des pronoms zéro, plus fréquents en chinois [32].
‘(Les truites) Habitent dans les rivières et les lacs. C’est un poisson omnivore. Pêche et conservation : (elles) peuvent être pêchées pendant toute l’année. Après la pêche, enlevez les écailles et les arêtes et lavez-les pour les manger fraiches.’
47 Dans les paragraphes pluri-référentiels, les patrons des CR sont beaucoup plus complexes, surtout quand le même paragraphe contient trois CR ou plus.
48 Quand deux ou plusieurs CR cohabitent, les maillons en chinois ne sont pas repris par des pronoms zéro, comme l’illustre le paragraphe [33] où cohabitent deux chaînes référant respectivement à singe et à cheveux. La répétition du GN les cheveux est utilisée dans l’intention de maintenir la continuité de la CR et d’éviter des ambiguïtés sémantiques.
‘Les singes ne se toilettent pas les cheveux pour trouver des poux, mais pour compléter les électrolytes qui manquent dans leur nourriture quotidienne. Leurs cheveux produisent des cristaux de sel. Ils se toilettent mutuellement pour trouver des grains de sel. […]’
49 Les reprises en français s’avèrent plus variables dans les environnements pluri-référentiels. La reprise au moyen d’un pronom ou d’un déterminant possessif permet toujours des interprétations univoques, comme le montre le fragment [34], où les maillons des CR la mère et le petit varient plus aisément en comparaison avec l’exemple [33] en chinois.
Conclusion et perspectives
50 Notre étude a abordé un contraste entre les CR en français et en chinois dans un genre spécifique, à savoir le genre encyclopédique. L’objectif de notre étude, basée sur un corpus franco-chinois comparable contenant quarante textes, était d’observer les caractéristiques de la composition et de la cohabitation des CR dans les deux langues en question et dans le genre encyclopédique.
51 En ce qui concerne la composition des CR, nous avons comparé les formes morpho-syntaxiques, les fonctions syntaxiques et les caractéristiques sémantiques dans l’intégralité du corpus et dans les CR principales. Les GN-modifieur sont les composants principaux des CR des deux langues. Les pronoms et les déterminants possessifs sont plus souvent utilisés que les pronoms zéro en français, tandis que le phénomène inverse est observé en chinois. Pour les deux langues, les environnements mono-référentiels l’emportent sur les situations de cohabitation des CR dans les TE. Trois patrons morpho-syntaxiques des maillons sont construits dans les environnements mono-référentiels. Les maillons nominaux en chinois sont plus variables en raison du changement de la tête lexicale. Les pronoms zéro en chinois prennent la place des pronoms exprimés et des déterminants possessifs en français qui donnent le plus haut degré d’accessibilité référentielle.
52 Dans le prolongement de cette étude, deux pistes de recherches sont envisageables. Tout d’abord, l’annotation des fonctions syntaxiques des maillons s’est limitée à distinguer le sujet de toutes les autres fonctions. Il serait toutefois intéressant de distinguer d’autres fonctions syntaxiques pour développer leur influence sur la saillance référentielle. Par ailleurs, le genre encyclopédique ne comporte pas seulement des articles animaliers. Il conviendrait donc d’explorer des textes développant des thèmes différents pour vérifier les résultats obtenus sur la composition des CR et les modes de cohabitation.
Références bibliographiques
- Ariel M., 1990, Accessing noun-phrase antecedents, London, Routledge.
- Beacco J.-C., 2000, « Écritures de la science dans les médias », Les Carnets du Cediscor, 6, p. 15-24.
- Charolles M., 1988, « Les plans d’organisation textuelle : périodes, chaînes, portées et séquences », Pratiques, 57, p. 3-13.
- Charolles M., 2002, La référence et les expressions référentielles en français, Paris, Éditions Ophrys.
- Chastain C., 1975, « Reference and Context », in Gunderson K., Language, Mind and Knowledge. Minnesota Studies in the Philosophy of Science, 7, Minneapolis, University of Minnesota Press, p. 194-269.
- Chen P. (陈平), 2015, « Référence, une notion essentielle pour la linguistique » (语言学的一个核心概念“指称”问题研究), Rhétorique contemporaine (当代修辞学), 189, p. 1-15.
- Corblin F., 1985, « Les chaînes de référence : analyse linguistique et traitement automatique », Intellectica : Revue de l’Association pour la recherche cognitive, 1, p. 123-143.
- Dubois J., Giacomo M., Guespin L., Marcellesi C., Marcellesi J.-B. et Mevel J.-P., 2012, Le Dictionnaire de linguistique et des sciences du langage, Paris, Larousse.
- Fang M. (方梅), 2018, « Phrases au sujet zéro dans le genre narratif en chinois » (汉语叙事语体中零形主语小句的句法整合功能), in Wang X.-L. et Hu Q. (王秀丽 & 胡庆), Analyse textuelle : Études sur la répartition et la méthodologie d’annotation des chaînes de référence en chinois et en français (篇章分析—对汉语、法语指称链条分布规律的实证研究及其标注), Pékin, Beijing Language and Culture University Press (北京语言大学出版社), p. 15-36.
- Habert B., 2005, Instruments et ressources électroniques pour le français, Paris, Éditions Ophrys.
- Huang Y., 2000, Anaphora: A Cross-linguistic Study, New York, Oxford University Press.
- Kim S.-Y., à par., Étude contrastive des chaînes de référence et problèmes de la coréférence : en français et en coréen, thèse de doctorat, Université de Strasbourg.
- Kleiber G., 2001, « Remarques sur la dénomination », Cahiers de praxématique, 36, p. 21-41.
- Landragin F., 2004, « Saillance physique et saillance cognitive », Corela, Cognition, Représentation, Langage, 2/2, p. 1-30.
- Li C. N. et Thompson S. A., 1989, Mandarin Chinese: A functional reference grammar, Vol. 3, Berkeley & Los Angeles, University of California Press.
- Liu D.-Q. (刘丹青), 2002, « La référence générique en chinois : aspect sémantique et aspect syntaxique » (汉语类指成分的语义属性和句法属性), Studies of Chinese Language (中国语文), 290, p. 411-422.
- Longo L. et Todirascu A., 2014, « Vers une typologie des chaînes de référence dans des textes administratifs et juridiques », Langages, 195, p. 79-98.
- Oberlé B., Schnedecker C., Baumer E., Capin D., Glikman J., Guo C., Revol T., Todirascu A. et Tushkova J., 2018, « Les chaînes de référence dans les textes encyclopédiques du 12e au 21e siècle : étude longitudinale », Travaux de linguistique, p. 67-141.
- Pinault-Sorensen M., 1993, L’encyclopédie, Paris, Presses Universitaires de France.
- Schnedecker C., 1997, Nom propre et chaînes de référence, Paris, Klincksieck.
- Schnedecker C., 2014, « Chaîne de référence et variation selon le genre », Langages, 195, p. 23-42.
- Schnedecker C., 2017, « Les chaînes de référence : une configuration d’indices pour distinguer et identifier les genres textuels », Langue française, 195, p. 53-72.
- Schnedecker C., 2021, Les chaînes de référence en français, Paris, Éditions Ophrys.
- Schnedecker C. et Landragin F., 2014, « Les chaînes de référence : présentation », Langages, 195, p. 3-22.
- Schwarz D., 1979, Naming and Referring: the Semantics and Pragmatics of Singular Terms, Berlin, Walter de Gruyter.
- Teubert W. et Čermakova A., 2004, « Directions in corpus linguistics », Lexicology and Corpus Linguistics, p. 113-166.
- Todirascu A., François T., Bernhard D., Gala N., Ligozat A.-L. et Khobzi R., 2017, « Chaînes de référence et lisibilité des textes : le projet ALLuSIF », Langue française, 195, p. 35-52.
- Xu J.-J. (徐赳赳), 1990, « Analyse discursive de ta (il) dans les textes narratifs » (叙述文中“他”的话语分析), Studies of Chinese Language (中国语文), 218, p. 325-337.
- Xu J.-J. (徐赳赳), 2010, Text Linguistics in Contemporary Chinese (现代汉语篇章语言学), Pékin, The Commercial Press (商务印书馆).
Mots-clés éditeurs : texte encyclopédique, chaînes de référence, comparaison français/chinois, modes de cohabitation des chaînes de référence
Date de mise en ligne : 24/03/2022
https://doi.org/10.3917/tl.082.0129Notes
-
[*]
Ce travail a bénéficié du soutien de l’ANR dans le cadre du projet Democrat (ANR-15-CE38-0008).
-
[1]
同指 (co-référence) 回指指的是,两个语言成分是指同一个人或者物。
-
[2]
Les exemples de cet article proviennent de notre corpus, textes encyclopédiques issus de Wikipédia et Baidubaike, collectés en 2020. Les exemples en chinois sont accompagnés des gloses et de notre traduction.
-
[3]
Notre étude porte sur le français proprement dit et le chinois mandarin, langues officielles de chacun des pays. Les variations dialectales ne sont pas discutées dans cet article.
-
[4]
Wikipédia (https://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Accueil_principal, dernière consultation : janvier 2021) est un projet d’encyclopédie « collective en ligne, universelle et multilingue ». En mars 2018, la version française de Wikipédia comptait presque deux millions d’articles.
-
[5]
Baidubaike (百度百科, https://baike.baidu.com/, dernière consultation : janvier 2021) est reconnu comme la plus grande encyclopédie collective chinoise en ligne. Le projet a officiellement démarré en 2008. En octobre 2020, Baidubaike comptait plus de 21 millions d’articles.
-
[6]
Le nombre de mots en chinois est calculé par AiHanYu selon les algorithmes des règles lexico-morphologiques (http://www.aihanyu.org/cncorpus/index.aspx, dernière consultation : juillet 2021).
-
[7]
SACR (Script d’Annotation des Chaînes de Référence) : http://boberle.com/projects/sacr/index.html, dernière consultation : janvier 2021.
-
[8]
Cf. Schnedecker (1997, 2014, 2017, 2021), Longo et Todirascu (2014), Todirascu et al. (2017), Oberlé et al. (2018).
-
[9]
Densité référentielle : Nombre de maillons / Nombre de mots.
-
[10]
CRViewer : http://boberle.com/projects/crviewer/index.html, dernière consultation : janvier 2021.