Couverture de TL_082

Article de revue

Quelles régularités pour les chaînes de référence dans le genre « nouvelles d’actualité » ? Exploration contrastive allemand / anglais / français

Pages 17 à 43

Notes

  • [*]
    Ce travail a bénéficié du soutien de l’ANR dans le cadre du projet Democrat (ANR-15-CE38-0008).
  • [1]
    Par ailleurs, dans le choix des articles, nous nous sommes assurés que la légende des photographies n’interrompait pas la lecture (les expressions référentielles des légendes ont été exclues) et que les articles ne comportent pas de liens hypertextes sur l’un des maillons (sinon, la forme linguistique du maillon pourrait avoir été modifiée pour optimiser les recherches automatiques).
  • [2]
    La longueur normalisée permet des comparaisons entre les chaînes malgré des articles de longueur différente.
  • [3]
    Pour des questions de lisibilité, nous regroupons ici sous l’appellation « autres » les catégories qui sont trop faiblement représentées pour former une colonne à part : possessifs, pronoms relatifs, sujets zéros, GN indéfinis, pronoms démonstratifs.
  • [4]
    En allemand, l’objet peut être à l’accusatif, au datif ou au génitif, ce qui interdit la désignation de COD.
  • [5]
    Cette colonne regroupe d’une part toutes les autres fonctions syntaxiques, notamment les compléments d’agent, de lieu, de temps et de manière, et d’autre part les déterminants possessifs.
  • [6]
    Si l’on écarte ce cas, dont on verra qu’il est problématique, la longueur normalisée la plus faible est 0,011 (manuscrit vendu aux enchères), chiffre très proche de celui des deux autres langues.
  • [7]
    Si l’on écarte ce cas, le taux le plus bas est 23 % (manuscrit vendu aux enchères).
  • [8]
    Si l’on écarte ce cas, le taux le plus bas est 36 % (musée ouvert).
  • [9]
    Le concept de topique est notoirement complexe à définir. Il est entendu ici au sens de topique « de discours », c’est-à-dire à l’échelle du texte entier, plutôt que de la phrase ou du paragraphe thématique (Demol, 2007 : 148). Le topique de discours est ce dont il est question (concept de « aboutness » développé notamment par Keenan et Schieffelin, 1976). Nous considérons, à la suite de Givón (1992) par exemple, qu’un topique peut être une entité. Pour certains linguistes, comme Keenan et Schieffelin (1976), le topique est au contraire toujours une proposition. Pour un panorama plus précis de la notion de topique en linguistique, voir notamment Demol (2007, chapitres 4 à 6).
  • [10]
    Dans les syntagmes du type Le Louvre Abu Dhabi, Abu Dhabi n’a pas été comptabilisé comme un maillon car il n’est pas référentiel.
  • [11]
    L’absence de chapeau concerne 5 articles anglais et 2 articles allemands.
  • [12]
    Ce critère permet de confirmer que dans l’article anglais « intrus », qui n’a pas pour thème la cuisine incendiée, la cuisine n’est pas un référent saillant : elle est seulement désignée par the kitchen ‘la cuisine’, tandis que la variation lexicale est majeure pour le couple victime, véritable thème (Anniversary couple ‘couple qui fêtait son anniversaire de mariage’ / a couple ‘un couple’ / The fun-loving pair ‘un couple amateur de fêtes en tous genres’ / Gemma and Tom Harrman).

Introduction

1 Les recherches sur les chaînes de référence (Biber, 1992 ; Apothéloz et Reichler-Béguelin, 1995 ; Schnedecker et Landragin, 2014 ; Baumer, 2015 ; Schnedecker, Glikman et Landragin, 2017) suggèrent que la forme d’une expression référentielle (nom propre, pronom personnel, etc.) n’est pas seulement fonction de son contenu sémantique ou de son statut cognitif, mais aussi le résultat de phénomènes génériques, pragmatiques ou socio-culturels. Nous nous concentrons ici sur la question du genre discursif. Soit le nom propre : dans la hiérarchie cognitive d’Ariel (1990), il signale un faible degré d’accessibilité du référent. Mais dans les textes juridiques anglo-normands, il est répété pour la partie adverse, alors même qu’il s’agit d’un référent saillant, parce que sa rigidité désignationnelle participe des conventions du genre (Capin, 2014 : 73). De même, si l’on prend les portraits journalistiques français et anglais, le nom propre est préféré au pronom personnel pour le topique, même en l’absence d’ambiguïté, lorsqu’il participe à la structuration thématique (Baumer, 2015 : 186-202). Schnedecker (2014 : 39) conclut : « le genre textuel conditionne les modalités de l’expression référentielle et, plus précisément, la composition des chaînes de référence ». Le genre influe également sur d’autres caractéristiques des chaînes : en anglais, les documents légaux comptent en moyenne des chaînes plus courtes que la conversation (Biber, 1992 : 228) ; en français, des recherches monogenres ou contrastives sur des recettes de cuisine, introductions de textes encyclopédiques (Schnedecker, 2014), portraits journalistiques (Schnedecker, 2005) ou faits divers (Schnedecker et Longo, 2013), suggèrent des effets sur la longueur des chaînes, la distance entre les maillons, la forme linguistique ou la place du premier maillon ; de même, en espagnol, pour les articles de presse d’information (Vande Casteele, 2013).

2 Cette influence du genre, cependant, est encore mal connue : les mêmes recherches font état de diversité au-delà des tendances notées. Schnedecker et Longo (2013 : 8) concluent notamment : « Il est difficile de dégager des patrons de chaînes dans les F[aits] D[ivers], tant est grande la disparité des C[haînes de] R[éférence] ». Le présent article s’intéresse à un autre genre de la presse écrite, la nouvelle d’actualité, avec l’objectif suivant : lorsque l’on restreint les facteurs de variation, est-il possible de dégager de fortes régularités ? Pour répondre, l’étude s’appuie sur un corpus exploratoire en allemand, anglais et français, afin de voir s’il existe des caractéristiques de mise en discours propres à chaque langue. Nous commencerons par définir les critères de constitution du corpus, puis présenterons les données quantitatives obtenues et les questions qu’elles soulèvent ; nous en proposerons alors une analyse détaillée.

1 – Procédure de constitution du corpus

1.1 – Collecte des données

3 Le corpus est constitué d’articles entiers de presse écrite contemporaine (2000-2017), qui relèvent de la catégorie textuelle « presse / articles d’information » (Voirol, 1993 ; Lüger, 1995 ; Grosse, 2001), « événement rapporté » dans la classification de Charaudeau (1997 : 40), ou « information sur l’actualité – (sous-type) information rapportée » pour le CREM (2017). Plus spécifiquement, ils relèvent tous du même genre, même si la distinction de genres est complexe pour la presse (Adam, 2001) : les textes du corpus correspondent à ce que l’on appelle la « nouvelle » (CREM, 2017), texte qui traite d’un élément d’actualité en mettant en scène l’essentiel des faits nouveaux, en replaçant ceux-ci dans leur contexte de signification. On est proche du reportage, mais celui-ci, contrairement à la nouvelle, met en avant le contexte social et humain, avec un corps de texte de type « récit ». Afin de pouvoir étudier les chaînes de référence, seuls ont été retenus des articles dont la longueur dépassait trois paragraphes. Nous avons également sélectionné uniquement des articles dont l’auteur était une personne identifiée, plutôt qu’une agence de presse.

4 Dans une démarche d’homogénéisation, les articles traitent tous d’un référent présenté par le titre comme principal : il y est thème d’une prédication explicite, hors structure attributive, et peut être glosé comme ‘quelqu’un (ou quelque chose) à qui il est arrivé quelque chose’. Ainsi L’opposant chinois Liu Xiaobo reçoit le prix Nobel de la paix 2010 (Le Monde, 2010), Museum’s £3m Cezanne stolen (littéralement, ‘Le Cézanne de 3 millions de livres d’un musée volé’ ; The Guardian, 2000) ou Niedersachsen: Grundschule brennt komplett aus (‘Basse-Saxe : une école brûle entièrement’ ; Der Spiegel, 2017). La prédication fait elle aussi intégralement partie de ce dont traite l’article ; il s’agit d’un événement spécifique, d’une actualité – à la différence du genre « portrait », dans lequel la prédication vise à caractériser une personne (ainsi, par exemple, « Liu Xiaobo : un homme de combat »). Néanmoins, dans les titres retenus pour cette étude, c’est la personne ou l’objet considéré qui est placé en thème par la structure thème/rhème, à la différence par exemple de « Vol d’un tableau de Cézanne », pour lequel c’est l’événement (« Vol ») qui remplit ce vide. L’étude se concentrera uniquement sur la chaîne amorcée par le thème du titre, mais nous verrons que des comparaisons occasionnelles avec d’autres chaînes s’imposent [1].

5 Les données sont extraites de presse (journaux ou sites de presse, comme celui de la BBC) de trois langues (allemand, anglais, français), dans une perspective comparative. Pour ce faire, les textes d’une même langue proviennent d’un même pays : l’Allemagne, la Grande-Bretagne, la France. De plus, chaque référent a été choisi pour sa capacité à être comparé dans les trois langues. Il s’agit autant que possible du même référent ; ainsi Liu Xiaobo, à qui le prix Nobel a été remis en 2010, ou un iPhone qui a été commercialisé. Sinon, il s’agit de référents équivalents (humain ou inanimé impliqué dans un événement de même nature), tels qu’un tableau volé.

6 Deux paramètres de variation « contrôlés » ont été retenus, parce qu’on sait par d’autres études (hors chaînes de référence, où ces critères n’ont pas encore été explorés) qu’ils peuvent avoir une influence sur le discours :

  • l’opposition humain / inanimé : la perspective anthropocentrique du discours et, parfois, de la grammaire, est bien connue, et est illustrée par une Hiérarchie d’Animation universelle. Dans notre représentation du monde, les êtres et les choses sont classés hiérarchiquement de manière récurrente : humains > autres animés > inanimés (Corbett, 1991 ; Croft, 2003 ; Gardelle et Sorlin, 2018).
  • l’opposition entre référents à nom propre et référents sans nom propre : la possibilité d’un nom propre (qui nomme une classe à membre unique) suppose une forme d’individualisation du référent plus grande que le seul nom commun. Ceci peut-il avoir un effet sur les chaînes ? La distinction concerne les inanimés (p. ex. iPhone 4 vs. une maison incendiée) comme les humains (p. ex. l’anonymat est préservé pour une personne sauvée de la noyade).

7 Le corpus compte au total seize articles par langue, avec deux articles par référent (ou type de référent identique). Avoir deux articles permet de voir si, pour un même référent auquel un même événement est arrivé, on trouve un haut degré d’homogénéité des chaînes, ou s’il existe des spécificités d’écriture. Les référents se répartissent selon les combinaisons des traits [± Humain] et [± Nom propre] :

  • humains avec nom propre : Roman Polanski (arrêté en Suisse) et Liu Xiaobo (qui reçoit le prix Nobel 2010 – pour le corpus français, un article traite de Barack Obama, qui reçoit le prix Nobel 2009) ;
  • humains sans nom propre : personne (sauvée de la noyade) ;
  • inanimés avec nom propre : iPhone 4 (commercialisé) ;
  • inanimés qui disposent d’un nom propre, mais qui n’apparaît pas en première mention : tableau (volé) / Auvers-sur-Oise, musée (inauguré ou ouvert au public pour la première fois) / Le Louvre Abu Dhabi ;
  • inanimés sans nom propre : manuscrit (vendu aux enchères), bâtiment (incendié).

8 Les résultats mériteront d’être affinés par la suite par une étude à plus grande échelle ; mais ce corpus exploratoire permet d’apporter un certain nombre de réponses fiables aux questions posées en introduction.

1.2 – Traitement automatique et manuel des données

9 L’étude s’inscrit dans le cadre du projet ANR Democrat (ANR-15-CE38-0008), dont un des volets consiste à développer des outils d’analyse des chaînes de référence. Nous en avons utilisé deux, développés par Bruno Oberlé. Le premier, SACR (Oberlé, 2017a), permet une annotation systématique et ergonomique (interface visuelle et code de couleurs) des maillons. Le second, CR Viewer (https://github.com/boberle/crviewer; Oberlé, 2017b), a permis d’obtenir les chiffres donnés ici, et de rechercher certaines expressions régulières. En parallèle, une annotation manuelle des chaînes a été effectuée, à fonction de vérification, et une étude qualitative « humaine » est venue compléter les données quantitatives.

2 – Présentation des données et premières analyses

10 Les analyses menées ici se concentrent uniquement sur les maillons référentiels, dans la lignée des travaux sur les chaînes de référence. La restriction de l’analyse aux seuls maillons permet en effet de mieux comprendre les contraintes de genre et de structuration textuelle, même si cela signifie par ailleurs renoncer à l’étude de certains éléments de variation interne à un article (choix de désignations, éléments de style individuels, apport des appositions…).

2.1 – Quelques données moyennes convergentes

11 En première approche, les sous-corpus allemand, anglais et français présentent une relative homogénéité si l’on considère les paramètres les plus fréquemment retenus dans l’étude des chaînes de référence (Schnedecker, Glikman et Landragin, 2017) : la longueur relative des chaînes étudiées, la nature et la fonction des maillons. Parmi l’ensemble des natures et fonctions relevées, on observe ainsi dans les trois langues une prédominance des GN par rapport aux noms propres et aux pronoms personnels ainsi qu’une faible proportion de pronoms personnels en fonction sujet, à la différence des textes à dominante monoréférentielle comme les portraits (Schnedecker, 2005). C’est ce qui nous rappellent les deux tableaux suivants :

Longueur normalisée moyenne des chaînes étudiées (nombre de maillons de la chaîne divisé par le nombre de tokens, c’est-à-dire le nombre total de mots de l’article)[2]

Allemand= 334 / 7 712= 0,043= 4,3 maillons pour 100 tokens
Anglais= 337 / 8 981= 0,037= 3,7 maillons pour 100 tokens
Français= 338 / 10 168= 0,032= 3,2 maillons pour 100 tokens

Longueur normalisée moyenne des chaînes étudiées (nombre de maillons de la chaîne divisé par le nombre de tokens, c’est-à-dire le nombre total de mots de l’article)[2]

Nature des maillons

Noms propresGroupes nominauxPronoms personnelsAutres[3]
Allemand17,4 %47,6 %17,1 %17,9 %
Anglais21,6 %33 %23,1 %22,3 %
Français20,7 %39,5 %18 %21,8 %

Nature des maillons

Fonction grammaticale des maillons

SujetCOD / Objet à l’accusatif[4]Complément du nomAutres[5]
Allemand52,7 %11,4 %9,3 %26,6 %
Anglais53,3 %11,7 %6,9 %28,1 %
Français47 %12 %11,4 %29,6 %

Fonction grammaticale des maillons

12 Mais dès que l’on entre dans le détail de l’analyse, c’est la diversité des résultats qui s’impose.

2.2 – Une homogénéité en réalité très limitée

13 Bien que les moyennes pour chaque paramètre donnent une impression d’homogénéité, c’est au contraire une grande disparité qui apparaît lorsqu’on regarde les amplitudes d’un article à l’autre, même au sein d’une même langue. Ainsi, si l’on reprend les trois paramètres examinés ci-dessus, en détaillant par article :

  • Paramètre 1 : longueur normalisée de la chaîne de référence :
    Allemand : de 0,014 (tableau volé) à 0,073 (Polanski arrêté)
    Anglais : de 0,006 (cuisine incendiée) [6] à 0,080 (Polanski arrêté)
    Français : de 0,012 (musée inauguré) à 0,061 (Liu qui reçoit le Prix Nobel)
  • Paramètre 2 : proportion de paragraphes (hors titre) qui contiennent au moins un maillon pour le référent désigné comme principal par le titre :
    Allemand : de 33 % (iPhone 4 sorti) à 100 % (Polanski arrêté, Liu qui reçoit le Prix Nobel, musée inauguré, tableau volé)
    Anglais : de 9 % (cuisine incendiée) [7] à 94 % (Polanski arrêté)
    Français : de 33 % (imprimerie incendiée) à 100 % (Polanski arrêté x2, enfant sauvé de la noyade, manuscrit vendu aux enchères, tableau volé, boulangerie incendiée)
  • Paramètre 3 : proportion de maillons en fonction sujet (place privilégiée du thème du discours) :
    Allemand : de 20 % (tableau volé) à 66 % (maison incendiée)
    Anglais : de 0 % (cuisine incendiée) [8] à 81 % (personne sauvée de la noyade)
    Français : de 25 % (imprimerie incendiée) à 62 % (musée inauguré ; manuscrit vendu aux enchères)

14 S’ajoute à ces trois paramètres un quatrième (« paramètre 4 »), qui conduit là encore à un constat d’hétérogénéité : contrairement à ce que l’on pourrait attendre, le référent annoncé comme principal par le titre n’est pas systématiquement celui qui compte la chaîne la plus longue (c’est-à-dire dont la chaîne contient le plus de maillons). Ce constat est particulièrement vrai pour l’anglais.

  • Paramètre 4 : coïncidence entre le référent annoncé comme principal par le titre et la chaîne la plus longue :
    Allemand : oui dans 15 articles sur 16 (dont 2, pour un iPhone commercialisé et une école incendiée, où une autre chaîne compte autant de maillons – respectivement un autre modèle d’iPhone et l’incendie) ; exception pour :
    • un tableau volé (5 maillons, contre 8 pour les voleurs)
    Anglais : oui dans seulement 9 articles sur 16 (dont 2, pour une personne sauvée de la noyade et un iPhone, où une autre chaîne compte autant de maillons – respectivement les policiers qui sont intervenus et la société O2) ; exception pour :
    • manuscrit vendu aux enchères : 19 maillons, contre 30 pour l’auteur (Jane Austen)
    • manuscrit vendu aux enchères : 8 maillons, contre 40 (chanson du manuscrit, American Pie) et 21 (auteur)
    • tableau volé : 7 maillons, contre 10 pour le musée
    • tableau volé : 10 maillons, contre 16 pour l’auteur (Magritte) et 13 pour le musée
    • musée Robert Burns ouvert : 15 maillons, contre 22 pour Burns
    • pub incendié : 8 maillons, contre 10 pour l’incendie
    • cuisine incendiée : la chaîne n’arrive qu’en 9e position : 2 maillons, contre 19 pour le couple victime, 16 pour la dame du couple, 13 pour le mari, 9 pour l’incendie, etc.
    Français : oui dans 13 articles sur 16 ; exception pour :
    • iPhone 4 commercialisé : 10 maillons, contre 20 pour Apple
    • imprimerie incendiée : 8 maillons, contre 9 pour l’incendie
    • musée inauguré : 8 maillons, contre 14 pour Abu Dhabi (ville où est inauguré le musée) et 9 pour Dubaï (concurrent dont Abu Dhabi espère se démarquer grâce au musée).

15 Par ailleurs, même lorsque l’on considère un même référent dans une même langue, l’homogénéité entre les articles n’est pas garantie. Par exemple, elle existe pour Polanski, mais pas pour Liu. Si l’on observe de façon conjointe les paramètres 1 à 3, on obtient les caractéristiques suivantes (en [4] pour Polanski, en [5] pour Liu) :

Caractéristiques des chaînes pour Roman Polanski

Longueur normaliséeProportion de paragraphes qui comptent au moins un maillonProportion de maillons sujets
Allemand1. Spiegel0,068100 %53 %
2. FAZ0,073100 %57 %
Anglais1. Guardian0,08094 %60 %
2. Telegraph0,06793 %57 %
Français1. Le Monde0,057100 %55 %
2. Figaro0,052100 %65 %

Caractéristiques des chaînes pour Roman Polanski

Caractéristiques des chaînes pour Liu Xiaobo (pour le français, Express = Barack Obama)

Longueur normaliséeProportion de paragraphes qui comptent au moins un maillonProportion de maillons sujet
Allemand1. Die Zeit0,03460 %60 %
2. Süddeutsche Zeitung0,064100 %55 %
Anglais1. Guardian0,07292 %46 %
2. BBC0,04550 %28 %
Français1. Le Monde0,06186 %51 %
2. Express0,04385 %55 %

Caractéristiques des chaînes pour Liu Xiaobo (pour le français, Express = Barack Obama)

2.3 – Premières conclusions

16 Ces tableaux conduisent d’abord à une conclusion très importante pour les tentatives de caractérisation des nouvelles d’actualité par les chaînes de référence : même lorsque les facteurs de variation sont réduits (voir les choix décrits en 1.1.), les chaînes de référence ne sont pas similaires. L’analyse des articles révèle pourquoi : dans une nouvelle, même un référent présenté comme principal ne se comprend pas indépendamment de l’événement qui lui est prédiqué dans le titre. La nouvelle n’est en effet pas un portrait : elle rapporte avant tout un événement, si bien que le référent principal peut intéresser aussi pour lui-même, mais pas nécessairement.

17 Par ailleurs, au-delà de la diversité, les données (paramètres 1 à 4 ci-dessus) font apparaître trois points d’intérêt convergents, sur lesquels va à présent se concentrer la suite de nos analyses en troisième partie.

18 Premièrement, elles suggèrent des différences récurrentes entre (certains) humains et inanimés : seuls des inanimés comptent une faible longueur normalisée, une présence dans une faible proportion de paragraphes, une faible proportion de sujets, et des chaînes concurrentes qui ont plus de maillons. À l’inverse, les humains ont tous la chaîne la plus longue des articles qui leur sont consacrés ; et ce sont les articles sur un humain, Polanski, qui arrivent en tête du paramètre 2 (proportion de paragraphes qui contiennent au moins un maillon pour le référent désigné comme principal par le titre) dans les trois langues, et en tête du paramètre 1 (longueur normalisée de la chaîne) dans deux des langues. Ces faits invitent à explorer plus avant l’effet de la Hiérarchie d’Animation.

19 Deuxièmement, l’anglais semble présenter plus de spécificités : c’est là que les proportions divergent le plus.

20 Enfin, le paramètre 4 soulève une question : si le référent présenté comme thème par le titre n’est pas toujours le référent à la chaîne la plus longue, en particulier pour l’anglais, comment peut-on déterminer malgré tout qu’il s’agit du référent principal, et même s’il s’agit du référent principal : peut-il avoir été choisi comme thème dans le titre pour une autre raison ? Cette question peut également contribuer aux recherches sur la détection automatique de topiques (cf. Longo et Todirascu, 2011), d’autant que le titre d’un article de presse est soumis à des contraintes éditoriales propres. Il est souvent ajouté a posteriori, et généralement par une autre personne (Clear et Weideman, 2002 : 210 ; Mouriquand, 2015).

21 Ce sont les trois points mentionnés dans ce paragraphe qui vont à présent être explorés plus avant en troisième partie, dans cet ordre.

3 – Analyse détaillée des facteurs de variation entre les chaînes

3.1 – Influence de la Hiérarchie d’Animation : quelle asymétrie humains / inanimés ?

22 Les études typologiques ont montré l’influence universelle d’une Hiérarchie d’Animation (humains > animaux > inanimés), qui a des conséquences sur le lexique, la hiérarchisation des référents dans la structure informationnelle, et certains éléments grammaticaux (Corbett, 1991 ; Gardelle et Sorlin, 2018). Il s’agit donc de voir quelle est l’influence exacte de cette Hiérarchie pour nos chaînes de référence.

23 De prime abord, les données du corpus, malgré de fortes variations inter-articles, confirment une tendance évidente à traiter différemment humains et inanimés – qu’il y ait ou non un nom propre : rien dans les données n’indique que la présence d’un nom propre ait une influence complémentaire. Outre les remarques faites en 2.2., trois paramètres viennent corroborer ces différences : la proportion de pronoms personnels dans la chaîne étudiée (« Paramètre 5 » ci-dessous), la longueur normalisée de cette chaîne (« Paramètre 6 »), et la proportion de paragraphes qui comportent au moins un maillon pour cette chaîne (« Paramètre 7 »).

Paramètre 5 : proportion de pronoms personnels (une cellule correspond à un article)

tableau im1
Polanski Liu Sauvé noyade IPhone Manuscrit Bâtiment incendié Musée Tableau Allemand 1 23 % 30 % 7 % 12 % 0 % 0 % 10 % 0 % 2 13 % 32 % 5 % 16 % 0 % 0 % 0 % 5 % Anglais 1 25 % 46 % 18 % 12 % 31 % 0 % 0 % 0 % 2 36 % 8 % 40 % 0 % 12 % 0 % 6 % 10 % Français 1 27 % 25 % 6 % 0 % 0 % 0 % 7 % 28 % 2 24 % 43 % 22 % 0 % 12 % 0 % 0 % 9 %

Paramètre 5 : proportion de pronoms personnels (une cellule correspond à un article)

24 On voit dans ce tableau que seuls des articles sur des inanimés (17 / 30, soit plus de la moitié) ne présentent aucun maillon pronom personnel, et ce dans les trois langues. Notons qu’il serait faux de conclure pour autant que les proportions de pronoms personnels sont toujours plus élevées pour les humains : dans le corpus anglais, un article sur un manuscrit volé compte 31 % de références pronominales pour ce référent, ce qui est parmi les taux les plus élevés pour les données de l’anglais, de même 28 % pour un article français sur un tableau volé.

Paramètre 6 : longueur normalisée des chaînes

tableau im2
Polanski Liu Sauvé noyade IPhone Manuscrit Bâtiment incendié Musée Tableau Allemand 1 0,068 0,034 0,053 0,028 0,029 0,016 0,050 0,014 2 0,073 0,064 0,037 0,029 0,053 0,018 0,028 0,030 Anglais 1 0,080 0,072 0,036 0,027 0,029 0,006 0,038 0,027 2 0,067 0,045 0,049 0,055 0,011 0,021 0,025 0,020 Français 1 0,057 0,061 0,053 0,019 0,019 0,028 0,030 0,023 2 0,052 0,043 0,032 0,024 0,021 0,024 0,012 0,033

Paramètre 6 : longueur normalisée des chaînes

25 Dans les trois langues, seuls des textes sur des inanimés comportent une longueur normalisée inférieure à 0,030 (23 articles sur 30) – il serait en revanche faux de conclure que la longueur normalisée est toujours plus faible pour les inanimés que pour les humains.

Paramètre 7 : proportion de paragraphes qui comportent au moins un maillon pour la chaîne étudiée

tableau im3
Polanski Liu Sauvé noyade IPhone Manuscrit Bâtiment incendié Musée Tableau Allemand 1 100 % 60 % 80 % 33 % 60 % 60 % 100 % 25 % 2 100 % 100 % 86 % 46 % 100 % 60 % 50 % 100 % Anglais 1 94 % 92 % 58 % 60 % 71 % 10 % 67 % 33 % 2 93 % 50 % 73 % 100 % 23 % 46 % 83 % 50 % Français 1 100 % 86 % 100 % 75 % 100 % 33 % 58 % 78 % 2 100 % 85 % 75 % 80 % 80 % 100 % 57 % 100 %

Paramètre 7 : proportion de paragraphes qui comportent au moins un maillon pour la chaîne étudiée

26 Seuls des inanimés n’ont pas de maillon dans plus de la moitié des paragraphes (8 articles sur 30). En revanche, là encore, on note que les taux de 100 %, à l’autre extrême, concernent aussi bien des humains que des inanimés (en anglais, ils ne concernent même qu’un inanimé).

27 À ces trois paramètres aux conclusions fortes, s’ajoute peut-être une autre caractéristique, qui demande plus de prudence : les trois seuls articles du corpus (deux en allemand et un en anglais) qui ne présentent pas de maillon dans le premier paragraphe concernent des inanimés (deux bâtiments incendiés et un musée).

28 Cependant, il ne faudrait pas pour autant en déduire un lien mécanique entre statut d’humain (ou d’inanimé) et forme de la chaîne ; c’est là un autre résultat important de notre étude. L’influence de la Hiérarchie d’Animation est bien réelle (d’où les tendances constatées) : culturellement, on s’intéresse plus aux humains qu’aux inanimés. Mais deux autres facteurs décisifs viennent se greffer :

  • le premier est d’ordre générique : il ressortit au genre « nouvelle d’actualité ». Comme on l’a vu précédemment, c’est l’événement qui constitue la raison d’être de la nouvelle d’actualité (à la différence du portrait). Le type d’événement détermine donc pour une grande part quels référents peuvent faire l’objet de chaînes concurrentes, même si l’un d’eux a été privilégié dans le titre. Ceci vaut aussi bien pour les humains que pour les inanimés ; ce critère générique prime sur la Hiérarchie d’Animation. Privilégier l’un des participants relève d’un angle d’approche ; mais l’intérêt contextuel pour d’autres référents ne peut disparaître pour autant. Par exemple, pour un article qui traite d’une personne sauvée de la noyade, le processus du sauvetage implique des sauveteurs, éventuellement des témoins, des proches, etc.
  • le second est d’ordre sociétal : c’est le poids symbolique du référent dans une société donnée, indépendamment de l’événement lui-même. Par exemple, pour les humains, parce que Polanski est considéré comme un grand cinéaste, les articles qui traitent de son arrestation se concentrent sur le choc suscité par la nouvelle, l’historique des accusations, son âge et la réaction de la victime, éventuellement un rappel de sa carrière. Pour cette raison, les chaînes de référence sont homogènes d’un article à l’autre, y compris d’une langue à l’autre. Au contraire, Liu n’ayant pas cette importance culturelle symbolique dans les articles du corpus, la remise du prix Nobel à ce dissident chinois crée l’événement par ses implications politiques, d’où de fortes disparités d’un article à l’autre. Si l’on prend l’exemple (représentatif) de l’anglais, le Guardian centre son propos sur le parcours du dissident (39 maillons, contre seulement 9 pour la Chine et 7 pour le prix Nobel), tandis que le site de la BBC s’intéresse bien plus aux enjeux (35 maillons pour Liu, mais 25 pour la Chine, 18 pour le prix Nobel, 9 pour l’épouse de Liu et 7 pour M. Jagland, président du comité Nobel).

29 Cette différence de poids symbolique se retrouve au sein des inanimés : un musée prestigieux comme le Louvre fait l’objet d’une chaîne de référence plus longue que de simples bâtiments incendiés. Dans le corpus, ces bâtiments sont, sans surprise, ceux qui suscitent le moins d’intérêt : aucune des chaînes ne comporte de pronom personnel, la longueur normalisée est toujours faible, et dans la moitié des cas, plus de la moitié des paragraphes ne les mentionnent pas. De plus, la section 2.2. a montré que pour 4 des 6 articles, le bâtiment incendié ne correspondait pas à la chaîne la plus longue.

30 Cette dernière remarque montre qu’il n’y a pas nécessairement coïncidence entre le référent mentionné comme thème dans le titre et la chaîne la plus longue. La question se pose donc à présent de savoir comment identifier le référent principal.

3.2 – Comment identifier le référent principal ?

31 Notre objectif est d’identifier le « quelqu’un ou quelque chose » principal qui sert de support à une prédication si l’on cherche à résumer l’article en une phrase. Il ne constitue pas le topique (thème de discours) à lui seul, mais il y participe, car dans une nouvelle d’actualité, il apparaît dans une prédication dont il ne peut être dissocié ; c’est cet ensemble qui constitue le topique [9].

32 Tout d’abord, pour rappel, le fait que l’élément compte la chaîne de référence la plus fournie de l’article n’est pas une garantie ; cette non-coïncidence est un point important à prendre en compte pour notre genre. Il est nécessaire de distinguer entre référent (simplement) saillant et référent principal. Par exemple, dans l’article « Le Louvre Abu Dhabi enfin inauguré ! » (Est Républicain, 2017), le musée n’est représenté que par 8 maillons, contre 14 pour Abu Dhabi ; pourtant, c’est bien le musée qui est le référent principal. En effet, l’événement à l’origine de la nouvelle est bien le fait qu’un musée est inauguré à Abu Dhabi. Ceci nous est signalé par la « pyramide inversée », la technique principale d’écriture journalistique des articles du corpus. Ce procédé consiste à faire apparaître dans le premier paragraphe le qui et le quoi (Pape et Featherstone, 2005 : 28) : ni le titre, ni le chapeau, ni le premier paragraphe, n’orientent vers Abu Dhabi comme référent central, il n’est ici qu’un circonstant (à Abu Dhabi) [10] ; c’est bien le musée qui fait l’objet de références répétées (soulignées ici) :

[1]
(Est Républicain 2017 – titre, chapeau et premier paragraphe)
Le Louvre Abu Dhabi enfin inauguré !
Le président Macron a assisté hier à l’inauguration, après deux ans de retard, du Louvre Abu Dhabi. Un symbole d’ouverture et de tolérance au cœur d’une région chahutée.
Le président français Emmanuel Macron et son épouse Brigitte étaient présents hier à Abu Dhabi, pour l’inauguration du musée, au côté de l’homme fort des Émirats arabes unis, Mohammed ben Zayed Al-Nahyane et de plusieurs autres dirigeants.

33 On en conclut que si Abu Dhabi fait l’objet d’une chaîne de référence dense, s’il constitue donc un référent saillant dans l’article, c’est parce que le musée participe au prestige du lieu, et plus largement de l’Émirat dans la concurrence féroce qu’il livre à Dubaï. Abu Dhabi ne constitue pas pour autant le référent principal au sens que l’on a donné à ce terme au début de la section. Or pour un objectif de détection automatique des topiques, de résumé en une phrase d’une nouvelle, c’est bien le référent principal qu’il est crucial d’identifier : ce n’est pas Abu Dhabi, mais le musée qui est inauguré là-bas. Dans cette analyse, nous rejoignons Givón (1992), pour qui la fréquence globale d’un référent (nombre d’expressions renvoyant à lui) informe surtout sur l’importance du référent, plutôt que sur son statut de topique.

34 En revanche, la présence dans le chapeau (lorsqu’il y en a un [11]), est un critère fiable. Elle est systématique dans notre corpus, à l’exception d’un seul article, français, qui apparaît comme une anomalie. Dans cet article qui traite d’un enfant sauvé de la noyade, le journaliste a préféré en chapeau une considération générique (gravité, définition de la noyade), ce qui est totalement atypique et perturbe même la lecture par son manque d’à-propos par rapport à la nouvelle (extrait [2] ci-dessous).

[2]
(Bien Public 2014 : titre, chapeau, auteur et premier paragraphe)
Un enfant de 7 ans sauvé d’une noyade dans le canal
Noyade. C’est la 3e cause de décès par traumatisme non intentionnel dans le monde, selon l’Organisation mondiale de la santé (OMS). Caractéristique. La noyade est le processus d’altération de la fonction respiratoire résultant d’une submersion dans un liquide.
Bertrand Lhôte
Ce mercredi matin, aux alentours de 10 h 30, un jeune Dijonnais de 7 ans est tombé dans le canal de Bourgogne au niveau de l’écluse 51 située sur la commune de Plombières-lès-Dijon. À proximité du canal, le garçon aurait glissé et chuté.

35 Dans cet extrait, le chapeau rompt avec le genre nouvelle d’actualité en introduisant une perspective générique. Il serait clairement faux de conclure du chapeau que le référent principal de l’article est la noyade : il s’agit d’un article qui relate en réalité le cas d’un enfant sauvé – qui ne s’est donc pas noyé.

36 Quant à la présence d’un maillon dans le premier paragraphe, il s’agit d’un critère moins fiable. Elle est certes extrêmement fréquente en raison de la technique de la pyramide inversée (ce paragraphe ayant alors un rôle de présentation du qui et du quoi), mais il existe d’autres techniques d’ouverture du corps de l’article. Comme on l’a dit, trois articles, pour des inanimés, ne présentent pas de maillon dans ce premier paragraphe. L’un d’eux peut être écarté (article anglais « intrus » sur une cuisine incendiée, voir plus loin), mais pour les deux autres, il s’agit de choix originaux pour conserver l’attention du lecteur. Ainsi, dans un article allemand sur l’ouverture du Louvre Abu Dhabi (extrait [3] ci-dessous), le titre comme le chapeau établissent clairement le musée comme référent principal, mais le premier paragraphe ouvre sur la démesure fascinante de l’émirat :

[3]
(Stuttgarter Nachrichten 2017)
Abu Dhabi Louvre 2.0 eröffnet im Arabischen Emirat
Von kaf 07. November 2017
In Abu Dhabi eröffnet am kommenden Samstag der Louvre – ein Ableger des französischen Museums. Wir zeigen Bilder, die Einblicke in die Kunstsammlung bereits vor der Eröffnung bieten.
Die Arabischen Emirate sind bekannt für Superlative: Größer, höher, weiter – alles, was mit Geld zu bezahlen ist, wird in den Emiraten nachgebaut. In Dubai steht nicht etwa ein Chrysler Building wie in New York – dort stehen gleich zwei Wolkenkratzer namens Al Kazim Towers, die aussehen wie eines der bekanntesten Bauwerke des Big Apple.
’Le Louvre 2.0 d’Abu Dhabi ouvre ses portes dans l’Émirat arabe. Par kaf 07 Novembre 2017. Le Louvre d’Abu Dhabi – avatar du musée français – ouvre ses portes samedi prochain. Nos photos ci-après donnent un aperçu des collections d’œuvres d’art avant même l’ouverture.
Les Émirats arabes sont connus pour leurs superlatifs : plus grand, plus haut, plus loin – tout ce qui se peut s’acheter avec de l’argent est reproduit dans les Émirats. À Dubaï, il y a non pas un Chrysler Building comme à New York – mais carrément deux gratte-ciel appelés Al Kazim Towers, qui ressemblent tous deux à l’un des bâtiments les plus célèbres de la Grande Pomme.’

37 En somme, pour une détection totalement fiable, nous en arrivons à la conclusion que le thème doit se trouver dans le titre PUIS dans le chapeau et / ou le premier paragraphe.

38 À l’inverse, quatre éléments apparaissent totalement non pertinents pour détecter le référent principal. L’un est la présence d’un maillon dans le dernier paragraphe de l’article : 6 articles allemands, 9 anglais et 4 français (soit 40 % des articles) n’en ont pas (voir Tableau ci-dessous). En effet, le dernier paragraphe n’a pas pour fonction de conclure, mais de donner quelques compléments, à couper par l’éditeur si besoin. Pape et Featherstone (2005 : 28) parlent de « tie up the loose ends » (‘traiter de ce qui reste’, voir aussi Leclerc, 1991 : 124). Nous revenons plus en détail sur cette fonction dans la section 3.3. ci-dessous.

Présence d’un maillon de la chaîne étudiée dans le dernier paragraphe de l’article

tableau im4
Polanski Liu Sauvé noyade IPhone Manuscrit Bâtiment incendié Musée Tableau Allemand 1 oui non non non non oui oui non 2 oui oui oui oui oui oui non oui Anglais 1 oui oui non non oui non oui non 2 oui non non oui non non oui non Français 1 oui oui oui oui oui oui oui non 2 oui non oui non non oui oui oui

Présence d’un maillon de la chaîne étudiée dans le dernier paragraphe de l’article

39 Un deuxième élément non pertinent pour identifier le référent principal est la présence de pronoms personnels dans la chaîne de référence : comme l’a montré le Tableau du paramètre 5, les pronoms personnels sont absents de plus de la moitié des textes consacrés à un inanimé. Il en va de même pour la proportion de maillons sujets : des référents secondaires peuvent tout à fait compter une forte proportion de sujets. Ainsi (et ce n’est pas un cas unique), dans l’article du Abbotsford News (2013) sur un jeune sauvé de la noyade, les 5 maillons qui désignent les policiers qui lui ont porté secours sont sujets. Enfin, la présence dans le plus grand nombre de paragraphes n’est pas non plus un élément pertinent pour identifier le référent principal, comme le montre le Tableau :

Le référent principal est-il celui qui est présent dans la plus grande proportion de paragraphes de l’article ? (si la réponse est « non », le référent qui a cette caractéristique est précisé entre parenthèses)

tableau im5
Polanski Liu Sauvé noyade IPhone Manuscrit Bâtiment incendié Musée Tableau Allemand 1 oui non (Prix Nobel) oui non (Iphone SE) non (Einstein) oui oui non (voleurs) 2 oui oui oui non (Jobs) oui oui oui oui Anglais 1 oui oui oui non (O2) non (Jane Austen) non (couple) oui non (musée) 2 oui oui oui oui non (chanson) non (incendie) non (Robert Burns) non (Magritte) Français 1 oui oui oui non (Apple) oui non (incendie) oui oui 2 oui oui oui oui oui oui non (Abu Dhabi) oui

Le référent principal est-il celui qui est présent dans la plus grande proportion de paragraphes de l’article ? (si la réponse est « non », le référent qui a cette caractéristique est précisé entre parenthèses)

40 En conclusion, le seul paramètre fiable à ce stade pour définir si un référent est le référent principal de l’article est sa présence dans le titre, puis dans le chapeau et / ou le premier paragraphe. Sur cette base, nous pouvons rétrospectivement identifier un article « intrus » dans notre corpus anglais (texte 1, Evening Chronicle, Anniversary couple’s kitchen goes up in smoke ‘La cuisine d’un couple qui fêtait son anniversaire de mariage part en fumée’), qui confirme donc dans le même temps la fiabilité de cette conjonction de critères. Bien que le titre présente comme nom tête du sujet le mot kitchen ‘cuisine’, c’est le couple uniquement qu’évoque le premier paragraphe (A couple had their wedding anniversary ruined after fire ripped through their flat ‘Un couple a vu son anniversaire de mariage gâché par un incendie qui a ravagé son appartement’) – il n’y a pas de chapeau. Le référent principal est donc en réalité le couple ; l’article n’est pas un cas de ‘bâtiment incendié’, mais de ‘couple victime d’un sinistre’. Ce décalage entre la forme du seul titre et le référent principal explique les décalages de chiffres signalés plus haut dans diverses notes.

41 Nous verrons plus bas (3.3.2) le paramètre complémentaire de la variété lexicale des maillons. Ce paramètre est à traiter plus largement au sein de la troisième question identifiée grâce aux données générales (partie 2) : celle des différences potentielles entre langues.

3.3 – Des différences entre les langues

42 Les données présentées ci-dessus ont suggéré trois différences entre l’anglais et les deux autres langues :

  • un plus grand nombre d’articles pour lesquels le référent annoncé comme principal par le titre n’a pas la chaîne la plus longue (« paramètre 4 » supra) : c’est le cas pour près de la moitié des articles en anglais (7 / 16), contre 1 seul en allemand et 3 pour le français ;
  • un plus grand nombre de maillons en fonction sujet (« paramètre 3 ») : l’anglais est la seule langue pour laquelle, dans le corpus, les taux atteignent 80 % ou plus (4 articles sur 16, contre un maximum de 66 % pour l’allemand et 62 % pour le français) ;
  • un plus grand nombre d’articles pour lesquels la chaîne étudiée ne présente pas de maillon dans le dernier paragraphe (9 articles sur 16, contre seulement 4 pour le français ; l’allemand se situe entre les deux, avec 6 articles) (Section 2.3.).

43 La dimension réduite du corpus ne permet pas de mesurer si ces différences potentielles sont statistiquement significatives, mais les autres données étant nettement plus similaires, ces divergences méritent d’être soulignées. Elles sont de deux ordres : des différences de structuration textuelle (3.3.1), et des différences partielles d’exploitation de la variété lexicale (3.3.2).

3.3.1 – Des différences de structuration textuelle

44 Deux différences notables de structuration textuelle apparaissent :

  • structuration par intertitres au fil de l’article : 15 articles sur 16 du corpus français comportent au moins un intertitre, qui donne une unité thématique à la section, contre seulement 2 en anglais (musée qui ouvre et Liu qui reçoit le prix Nobel). L’allemand, lui, se situe entre-deux, avec 7 articles, soit environ la moitié.
  • longueur des paragraphes : en anglais, les paragraphes sont généralement très courts, à la différence des deux autres langues (et particulièrement du français). Le ratio du nombre total de mots sur le nombre total de paragraphes est de 51,9 tokens par paragraphe en anglais, contre 69,4 en allemand et 80,7 en français.

45 Or ces deux caractéristiques cumulées invitent souvent en anglais à une juxtaposition des informations sans lien immédiatement visible, là où le français et l’allemand instaurent plus de continuité. Cette différence explique en partie la proportion souvent plus forte de maillons sujets en anglais : le morcellement, les changements fréquents de référents lors de changements de paragraphes, nécessitent de poser de nouveau le référent principal comme thème. Prenons l’exemple des tableaux volés, pour lequel la proportion de maillons sujets atteint 90 % en anglais. Les passages divergents sont ceux qui amènent des informations d’arrière-plan, ainsi [4] et [5]. Tandis que dans l’extrait français, l’historique du tableau n’empêche pas la continuité topicale (déterminant possessif, marqueur de haute accessibilité), le journaliste anglais privilégie un changement de paragraphe, avec l’introduction d’un thème temporaire sous forme de maillon sujet (Magritte was not a painter […], ‘Magritte n’était pas un peintre […]’), puis un retour au topique de la peinture par un maillon à nouveau sujet (This painting, which […] ‘Ce tableau, qui […]’).

[4]
(Tableau volé, français 2, Figaro, 2017)
Cette toile de petites dimensions, soit 41 cm sur 33 cm, peinte en 1886 par Marcellin Desboutin représente Louise Ackermann, une poétesse française du XIXe siècle. Maud Leyoudec confie que « Desboutin a peint Louise Ackermann quatre ans avant le décès de celle-ci. Pour ce portrait, il s’est intéressé à la psychologie de son visage et a réalisé une peinture à l’huile aussi sombre que les œuvres de la poétesse ». Son propriétaire, habitant dans le sud de la France, avoue ne pas connaître la provenance de la toile qu’il a achetée en 1994 à un antiquaire. « On ne sait pas encore si une enquête sera ouverte », précise Maud Leyoudec.
[5]
(Tableau volé, anglais 2, Guardian, 2000)
The stolen painting, posed by Magritte’s wife, shows a woman reclining with a shell balanced on her stomach.
Maja Pertot Bernard of the Art Loss Register said Magritte was not a painter whose works were often stolen and there were very few missing Magrittes.
This painting, which is highly recognisable, is very unlikely to be attempted to be sold on the open market,” she said.
‘Le tableau volé, pour lequel le modèle a été l’épouse de Magritte, montre une femme allongée avec un coquillage en équilibre sur son ventre. Maja Pertot Bernard, de l’Art Loss Register, a déclaré que Magritte n’était pas un peintre dont les œuvres étaient souvent volées et qu’il y avait très peu de Magritte disparus.
« Il est très peu probable que ce tableau, qui est très reconnaissable, puisse faire l’objet d’une tentative de vente sur le marché libre », a-t-elle déclaré.’

46 De même, l’anglais se distingue par la présence plus rare d’un maillon dans le dernier paragraphe de l’article pour le référent principal. Les articles se terminent plus souvent par une dernière information secondaire, sans lien nécessaire avec le référent principal, là où le français et l’allemand terminent plus fréquemment par une généralisation ou une référence à l’avenir proche qui concerne le référent. Comparons les fins d’articles consacrés à des bâtiments incendiés (sans l’article anglais « intrus » sur la cuisine). L’article anglais sur un pub incendié se clôt sur l’origine géographique des équipes de secours, en décalage avec le thème principal du paragraphe précédent, même s’il s’agit toujours de secours [6]. En français et en allemand, en revanche, il s’agit toujours d’envisager les conséquences de l’incendie, avec par exemple un bilan des dégâts en [7] :

[6]
(Texte 2, anglais, Birmingham Mail, 2013)
A West Midlands Fire Service spokesman said: « We sectorised the fire into different sections to have firefighters working on it from different angles, which gives you an idea of how serious this fire was ».
Crews from Bournbrook, Ladywood, Kings Norton, Handsworth, Northfield, Oldbury and Erdington had attended the blaze.
‘Un porte-parole du service incendie des West Midlands a déclaré : « Nous avons sectorisé le feu en différentes sections pour que les pompiers puissent le combattre sous différents angles, ce qui vous donne une idée de la gravité de cet incendie ». Des équipes de Bournbrook, Ladywood, Kings Norton, Handsworth, Northfield, Oldbury et Erdington avaient participé à l’opération’.
[7]
(Texte 1, français, Le Parisien, 2017)
La cage d’escalier du bâtiment n’a pas été touchée et les occupants ont pu évacuer les lieux sans dommage. Les pompiers ont pu maîtriser l’incendie après plus de trois heures de lutte contre les flammes. Le sinistre, dont l’origine reste indéterminée, a totalement détruit les 200 m2 du commerce en rez-de-chaussée.

3.3.2 – Des différences partielles d’exploitation de la variété lexicale

47 L’allemand, l’anglais et le français ont en commun d’exploiter la variété lexicale dans le titre, le chapeau (s’il y en a un) et le premier paragraphe ; mais au-delà, l’anglais diffère.

48 Dans les trois langues, typiquement, le titre donne le contenu identificatoire (nom de la personne, type de référent, ainsi, manuscrit ou pub comme le montre le tableau ci-dessous) et les éventuelles caractéristiques du référent qui justifient de consacrer un article à l’événement (ainsi « rare »). Le chapeau et/ou le premier paragraphe, eux, reprennent ces informations en les complétant par des expansions ou des appositions ou, rarement, en explicitant une relation de sens (premier cas du tableau ci-dessous) – si le chapeau a donné toutes les informations jugées centrales pour cette partie de l’article, le premier paragraphe présente un maillon réduit. Voici quelques exemples représentatifs :

Exemples de progression des informations entre les maillons du titre, du chapeau et du 1er paragraphe (le gras signale les ajouts d’information) pour le référent principal

tableau im6
Titre Chapeau 1er paragraphe Anglais bâtiment incendié 2 Brums Lord of Rings pub (pas de chapeau) A Lord of the Rings themed pub manuscrit 1 Jane Austen rare manuscript A rare, handwritten manuscript of Jane Austen’s unfinished novel The Watsons ‘Un manuscrit rare, écrit à la main, du roman inachevé de Jane Austen, The Watsons’ An incredibly rare handwritten manuscript of an unfinished novel by Jane Austen – the only one that is still in private hands – ‘Un manuscrit incroyablement rare, écrit à la main, du roman inachevé de Jane Austen, The Watsons – le seul encore détenu par des collectionneurs privés –’ Polanski 2 Roman Polanski The film director Roman Polanski […] ‘Le réalisateur Roman Polanski […]’ Polanski, 76 ans Français bâtiment incendié 1 L’imprimerie un commerce du boulevard du Montparnasse, à Paris un commerce du boulevard du Montparnasse, dans le XVe arrondissement de Paris manuscrit 2 Le texte fondateur du surréalisme L’unique manuscrit du « Manifeste du surréalisme » d’André Breton le seul manuscrit connu du Manifeste du surréalisme, texte fondateur écrit en 1924 qui définit […] Polanski 1 Le cinéaste Roman Polanski le réalisateur du « Pianiste » le cinéaste Roman Polanski

Exemples de progression des informations entre les maillons du titre, du chapeau et du 1er paragraphe (le gras signale les ajouts d’information) pour le référent principal

tableau im7
Allemand bâtiment incendié 1 Grundschule die einzige Schule eines Ortes ‘la seule école d’une localité’ eine Grundschule ‘une école primaire’ manuscrit 2 Beethoven-Manuskript (pas de chapeau) Ein Manuskript von Beethovens « Großer Fuge » […] der handschriftliche Entwurf für die 1825 enstandene Komposition ‘Un manuscript de la « Grande Fugue » de Beethoven […] le projet manuscrit de la composition écrite en 1825’ Polanski 1 Regisseur Polanski Der weltberühmte Filmregisseur Roman Polanski ‘le réalisateur de renommée mondiale, Roman Polanski’ Der Regisseur Roman Polanski, 76 […] Der Oscar-Preisträger (“Der Pianist”) ‘Le réalisateur Roman Polanski, 76 ans […] Le cinéaste oscarisé (« Le Pianiste »)’

49 Au-delà du premier paragraphe, typiquement (75 % des cas), les maillons du référent étudié n’apportent plus d’informations nouvelles. C’est là que l’anglais se distingue en partie des deux autres langues. Les articles français et allemands montrent un évitement de la répétition à l’identique et une recherche évidente de variation, lorsque celle-ci est possible, comme le préconise par exemple ce manuel de journalisme :

[8]
(Grevisse, 2014 : 30) On conseille classiquement d’éviter d’utiliser un même mot deux fois, dans une portion de texte réduite. En effet, lorsque le lecteur perçoit que le mot qu’il vient de lire a déjà été utilisé dans les quelques lignes qui précèdent cette occurrence, il a tendance à interrompre sa lecture et à rechercher la première occurrence.

50 Ainsi, pour un tableau volé (texte 1), les synonymes abondent : la peinture / le tableau / cette toile / ce tableau / la Madone au Fuseau / l’œuvre de Leonard de Vinci / cette œuvre du maître italien ; pour un manuscrit vendu aux enchères, le manuscrit alterne avec le texte / l’exemplaire du Voyage. De même, en allemand, das Bild ‘l’image’ alterne avec das (Kunst)Werk ‘l’œuvre (d’art)’ / das Gemälde ‘le tableau’. En anglais, en revanche, la répétition n’est pas perçue comme problématique lorsqu’elle concerne des mots courants ; c’est le recours excessif à des synonymes qui est considéré dans les manuels de journalisme comme source de confusion :

[9]
(Hicks et al. 1999, 37, section ‘Variation’) One of the worst news-writing habits you can acquire is to avoid calling a spade a spade – or rather, having called it a spade in the intro, to insist on calling it a gardening tool, a digging device and then a horticultural implement in the parts that follow.
This practice is based on two false assumptions: one, that the repetition of words like spade is always a bad idea; two, that attentive speakers enjoy these variation words for their own sake.
‘L’une des pires habitudes à contracter est d’éviter d’appeler un chat [littéralement, une pelle] un chat [une pelle] – ou plutôt, de l’appeler chat dans l’intro, d’insister ensuite pour le nommer animal de compagnie, animal domestique puis mammifère [outil de jardinage, instrument de creusage, puis un ustensile horticole] dans les sections suivantes.
Cette pratique repose sur deux erreurs : la première consiste à penser que la répétition de mots tels que chat [pelle] serait toujours une mauvaise chose ; la seconde, que les locuteurs attentifs apprécient ces variations gratuites.’

51 Conformément à ces principes, pour les textes sur des tableaux volés et des manuscrits, on ne trouve que painting / work (‘peinture / œuvre’) ou manuscript (‘manuscrit’) au-delà du premier paragraphe ; la variation concerne l’étoffement factuel, par exemple the stolen painting (‘la peinture volée’). Sinon, elle n’apparaît que lorsque plusieurs désignations courantes sont aisément disponibles ; ainsi, pour les personnes sauvées de la noyade, a teenage boy / a youth / the victim / the teen (‘un adolescent / un jeune / la victime / l’adolescent’) (texte 1).

52 Une autre différence de pratique rédactionnelle concerne les périphrases telles que l’œuvre de Leonard de Vinci pour La Madonne au fuseau ou der Oskar-Preisträger (‘le cinéaste oscarisé’) pour Polanski : elles sont quasiment absentes du corpus anglais, où c’est la maxime de quantité de Grice qui prévaut. La variation lexicale abusive, connue sous le terme ironique de « elegant variation » (reprise de la célèbre formule de Henry Fowler en 1926), concerne notamment les périphrases par nom commun (p. ex. the Nobel Peace Prize Winner pour Mr Hume, Butterfield, 2005, entrée elegant variation), et plus généralement toute information qui n’est pas directement pertinente dans le contexte immédiat (ce que Ranger, 2002 : 87 nomme des « anaphores lexicales jetables »). Pour l’anglais, ces anaphores « jetables » n’ont été rencontrées que dans deux articles (Polanski / Liu). Pour l’iPhone 4, par exemple, la faible variété lexicale de l’anglais (the handset / the phone / the new device ‘l’appareil / le téléphone / le nouvel appareil [nom synonyme de ‘handset’ ici]’) tranche avec le français, qui propose, outre l’appareil / son smartphone, les périphrases la nouvelle version du téléphone vedette ou cet appareil à la mode ; ou avec l’allemand, où das Smartphone / das Gerät (‘le smartphone / l’appareil’) alternent avec les périphrases ein revolutionäres Handy / Der Knüller (‘un portable révolutionnaire’ / ‘le truc qui s’arrache’).

53 Si l’on considère à présent la variation lexicale pour les chaînes autres que celles des référents principaux, les articles des trois langues sont similaires. D’une manière générale, ces chaînes sont moins variées. Par exemple, aucune périphrase n’est utilisée et il n’y a pas reprise des noms propres par des GN à nom commun, tel l’émirat pour Abu Dhabi ou Dubaï dans les articles sur le Louvre Abu Dhabi inauguré. On trouve quelques recherches de variations par alternance conventionnelle entre nom propre et profession ou statut (ainsi Marcellin Desboutin / l’artiste bourbonnais / cet artiste, texte 2 sur le tableau volé ; ou pour un inanimé, the RNLI / the charity ‘le RNLI / l’association’, texte 2 consacré à une personne sauvée de la noyade) et, pour les inanimés, quelques recours aux synonymes, notamment dans les textes sur les bâtiments incendiés : le sinistre / l’incendie.

54 C’est seulement lorsque le référent a la chaîne la plus longue, bien qu’il ne soit pas le référent principal, que la variété décrite plus haut apparaît. Ainsi dans le texte anglais sur un tableau volé de Magritte, dans lequel le tableau constitue seulement la troisième chaîne de référence, derrière Magritte et le musée lui-même, on trouve pour ces deux autres référents l’alternance suivante : the Belgian painter ‘Le peintre belge (chapeau)’ / the Belgian surrealist artist René Magritte ‘l’artiste surréaliste belge René Magritte’ (1er paragraphe) / the painter ‘le peintre’, et the museum / former home of […] ‘le musée / l’ancien domicile de […]’, (chapeau) former terraced house ‘l’ancienne maison de ville [de Magritte]’. Ces caractéristiques nous permettent de conclure que ces deux référents sont saillants aux yeux du journaliste, au sens où ils constituent des éléments de contexte incontournables pour comprendre l’enjeu du vol de tableau. La variété lexicale est ainsi un indice de saillance du référent [12], au même titre que, comme on l’a vu précédemment (voir l’exemple d’Abu Dhabi), la longueur de la chaîne. Rappelons cependant qu’un référent « simplement » saillant n’est pas nécessairement le référent principal.

55 Pour finir, considérons les noms propres. Dans les trois langues, c’est le nom propre, lorsqu’il est connu, qui constitue la dénomination de base ; le GN à nom commun apparaît, lui, comme une forme de variation. Par ailleurs, pour les humains, réduire le réalisateur à son nom de famille, Polanski, est fréquent. L’allemand fait de même pour Liu, alors qu’en anglais et en français, les journalistes optent plutôt pour Mr. Liu ou Liu Xiaobo, peut-être parce que l’ordre nom-prénom du chinois est inhabituel. Il existe enfin une différence de convention : pour les femmes, l’anglais et l’allemand utilisent communément le seul nom de famille, comme pour les hommes (ainsi Gailey comme reprise réduite de Samantha Gailey pour la victime de Roman Polanski), alors que c’est moins le cas en français.

Conclusion

56 Malgré la taille relativement réduite du corpus trilingue constitué, l’analyse comparative des différents paramètres retenus pour caractériser les chaînes de référence dans les nouvelles d’actualité a révélé quelques tendances fortes. Premièrement, malgré un corpus voulu le plus homogène possible, les chaînes étudiées ici ont montré un degré d’hétérogénéité inévitable, au-delà de quelques données moyennes convergentes. Cette hétérogénéité n’est pas arbitraire, elle apparaît triplement motivée :

  • une contrainte générique : dans la nouvelle d’actualité, c’est l’événement qui constitue la « nouvelle » ; le référent principal n’est qu’un élément de ce topique ;
  • le poids symbolique du référent dans la société : un fort poids symbolique réduit la concurrence référentielle ;
  • une tendance anthropocentrique plus générale des humains, formalisée par la Hiérarchie d’Animation : par défaut, on s’intéresse plus aux humains qu’aux inanimés.

57 Pour cette raison, l’identification automatique du référent principal n’est pas aisée. L’étude a montré que seule la conjugaison de plusieurs facteurs se révélait fiable : présence du référent dans le titre, puis dans le chapeau et / ou le premier paragraphe. Par ailleurs, il est apparu nécessaire de différencier entre référent principal et référents « simplement » saillants : la longueur de chaîne et la variation lexicale ne sont que des indices de saillance.

58 Enfin, la comparaison inter-langues a montré l’influence de la structure générale de l’information (convention principale, mais non exclusive, de la « pyramide inversée ») sur certaines caractéristiques des chaînes, communes par conséquent aux trois langues. Mais au-delà, des différences notables de pratiques rédactionnelles sont apparues entre l’anglais et les deux autres langues : différences de structuration fine et de gestion de la variété lexicale. La division ne s’effectue donc pas selon une distinction entre langue romane (français) et langues germaniques (anglais et allemand).

Références bibliographiques

  • Adam J-M., 2001, « Genres de la presse écrite et analyse de discours », Semen, 13, [https://semen.revues.org/2597].
  • Apothéloz D., Reichler-Béguelin M.-J., 1995, « Construction de la référence et stratégies de désignation », TRANEL, Travaux Neuchâtelois de Linguistique, p. 227-271, hal-00869154.
  • Ariel M., 1990, Accessing Noun-Phrase Antecedents, New York, Routledge.
  • Baumer E., 2015, Noms propres et anaphores nominales en anglais et en français : étude comparée des chaînes de référence, Paris, L’Harmattan.
  • Biber D., 1992, « Using computer-based corpora to analyze the referential strategies of spoken and written texts », in Svartvik J., Directions in corpus linguistics: proceedings of Nobel symposium 82, Stockholm, 4-8 August 1991, Berlin, Mouton de Gruyter, p. 213-256.
  • Butterfield J. (ed.), 20153, Fowler’s Concise Modern English Usage, Oxford, Oxford University Press.
  • Capin D., 2014, « Chaînes de référence dans les textes médiévaux non narratifs : les year books ou l’élaboration d’une écriture juridique », in Schnedecker C. et Landragin F., Langages, 195, p. 61-78.
  • Charaudeau P., 1997, Le discours d’information médiatique : la construction du miroir social, Paris, Nathan.
  • Clear A. et Weidemann L., 2002, Dynamics of Public Relations and Journalism: A practical guide to media studies, Landsowne, JUTA.
  • Corbett G., 1991, Gender, Cambridge, Cambridge University Press.
  • Crem (Centre de ressources en éducation aux médias), 2017, « Les genres médiatiques », [http://reseau-crem.lacsq.org/projet/rad6.htm#info1].
  • Croft W., 2003, Typology and Universals, Cambridge, Cambridge UP.
  • Demol A., 2007, Les anaphoriques il et celui-ci : étude des facteurs qui déterminent leur choix, Thèse de doctorat, Université de Gand.
  • Gardelle L. et Sorlin S., 2018, « Anthropocentrism, egocentrism and the notion of Animacy Hierarchy », International Journal of Language and Culture, 5/2, p. 133-162.
  • Givón T., 1992, « The grammar of referential coherence as mental processing instructions », Linguistics, 30, p. 5-55.
  • Grevisse B., 2014, Écritures journalistiques. Stratégies rédactionnelles, multimédia et journalisme narrative, 2e édition, Louvain-la-Neuve, De Boeck.
  • Grosse E.-U., 2001, « Évolution et typologie des genres journalistiques : essai d’une vue d’ensemble », Semen, 13 <https://semen.revues.org/2615>.
  • Hicks W., Adams S., Gilbert H. et Holmes T., 19992, Writing for Journalists, Londres, Routledge.
  • Keenan E. et Schieffelin B., 1976, « Topic as a discourse notion », in Li C.L., Subject and topic, New York, Academic Press.
  • Leclerc A., 1991, L’entreprise de presse et le journaliste, Québec, Presses de l’Université du Québec.
  • Longo L. et Todirascu A., 2011, « RefGen: Identifying reference chains to detect topics », in Pallotta V. et al., Advances in Distributed Agent-Based Retrieval Tools, Berlin, Springer, p. 27-40.
  • Lüger H.-H., 1995, Pressesprache, Tübingen, Niemeyer.
  • Mouriquand J., 20155, L’écriture journalistique, Paris, PUF.
  • Oberlé B., 2017a, « Coreference annotation with SACR, a new drag-and-drop based tool », Workshop Eclavit, 24-25 novembre 2017, Marne-la-Vallée. [https://halshs.archives-ouvertes.fr/halshs-01715467/document]
  • Oberlé B., 2017b, CR Viewer. [https://github.com/boberle/crviewer]
  • Pape S. et Featherstone S., 2005, Newspaper Journalism: A practical introduction, Londres, Sage.
  • Ranger G., 2002, « Notes sur la traduction de l’anaphore lexicale du français vers l’anglais », in Paulin C., Langues et cultures en contact. Traduire e(s)t commenter, Besançon : PUFC, p. 83-99.
  • Schnedecker C., 2005, « Les chaînes de référence dans les portraits journalistiques : éléments de description », Travaux de linguistique, 51, p. 85-133.
  • Schnedecker C., 2014, « Chaînes de référence et variation selon le genre », in Schnedecker C. et Landragin F., Langages, 195, p. 23-42.
  • Schnedecker C. et Landragin F., 2014, Les chaînes de référence, Langages, 195.
  • Schnedecker C. et Longo L., 2012, « Impact des genres sur la composition des chaînes de référence : le cas des faits divers », in Neveu F. et al., 3e Congrès Mondial de Linguistique Française – CMLF, Les Ulis, EDP Sciences, p. 1957-1972.
  • Schnedecker C., Glikman J. et Landragin F., 2017, Les chaînes de référence en corpus, Langue française, 195.
  • Vande Casteele A., 2013, « A corpus-based study on referential chains in Spanish newspapers », in 5th International Conference on Corpus Linguistics (CILC), Procedia – Social and Behavioral Sciences, 95, p. 170-177.
  • Voirol M., 1993, Guide de la rédaction, Paris, Victoires éditions.

Mots-clés éditeurs : linguistique contrastive, chaînes de référence, détection de topiques, genre discursif

Date de mise en ligne : 24/03/2022

https://doi.org/10.3917/tl.082.0017

Notes

  • [*]
    Ce travail a bénéficié du soutien de l’ANR dans le cadre du projet Democrat (ANR-15-CE38-0008).
  • [1]
    Par ailleurs, dans le choix des articles, nous nous sommes assurés que la légende des photographies n’interrompait pas la lecture (les expressions référentielles des légendes ont été exclues) et que les articles ne comportent pas de liens hypertextes sur l’un des maillons (sinon, la forme linguistique du maillon pourrait avoir été modifiée pour optimiser les recherches automatiques).
  • [2]
    La longueur normalisée permet des comparaisons entre les chaînes malgré des articles de longueur différente.
  • [3]
    Pour des questions de lisibilité, nous regroupons ici sous l’appellation « autres » les catégories qui sont trop faiblement représentées pour former une colonne à part : possessifs, pronoms relatifs, sujets zéros, GN indéfinis, pronoms démonstratifs.
  • [4]
    En allemand, l’objet peut être à l’accusatif, au datif ou au génitif, ce qui interdit la désignation de COD.
  • [5]
    Cette colonne regroupe d’une part toutes les autres fonctions syntaxiques, notamment les compléments d’agent, de lieu, de temps et de manière, et d’autre part les déterminants possessifs.
  • [6]
    Si l’on écarte ce cas, dont on verra qu’il est problématique, la longueur normalisée la plus faible est 0,011 (manuscrit vendu aux enchères), chiffre très proche de celui des deux autres langues.
  • [7]
    Si l’on écarte ce cas, le taux le plus bas est 23 % (manuscrit vendu aux enchères).
  • [8]
    Si l’on écarte ce cas, le taux le plus bas est 36 % (musée ouvert).
  • [9]
    Le concept de topique est notoirement complexe à définir. Il est entendu ici au sens de topique « de discours », c’est-à-dire à l’échelle du texte entier, plutôt que de la phrase ou du paragraphe thématique (Demol, 2007 : 148). Le topique de discours est ce dont il est question (concept de « aboutness » développé notamment par Keenan et Schieffelin, 1976). Nous considérons, à la suite de Givón (1992) par exemple, qu’un topique peut être une entité. Pour certains linguistes, comme Keenan et Schieffelin (1976), le topique est au contraire toujours une proposition. Pour un panorama plus précis de la notion de topique en linguistique, voir notamment Demol (2007, chapitres 4 à 6).
  • [10]
    Dans les syntagmes du type Le Louvre Abu Dhabi, Abu Dhabi n’a pas été comptabilisé comme un maillon car il n’est pas référentiel.
  • [11]
    L’absence de chapeau concerne 5 articles anglais et 2 articles allemands.
  • [12]
    Ce critère permet de confirmer que dans l’article anglais « intrus », qui n’a pas pour thème la cuisine incendiée, la cuisine n’est pas un référent saillant : elle est seulement désignée par the kitchen ‘la cuisine’, tandis que la variation lexicale est majeure pour le couple victime, véritable thème (Anniversary couple ‘couple qui fêtait son anniversaire de mariage’ / a couple ‘un couple’ / The fun-loving pair ‘un couple amateur de fêtes en tous genres’ / Gemma and Tom Harrman).

Domaines

Sciences Humaines et Sociales

Sciences, techniques et médecine

Droit et Administration

bb.footer.alt.logo.cairn

Cairn.info, plateforme de référence pour les publications scientifiques francophones, vise à favoriser la découverte d’une recherche de qualité tout en cultivant l’indépendance et la diversité des acteurs de l’écosystème du savoir.

Retrouvez Cairn.info sur

Avec le soutien de

18.97.14.89

Accès institutions

Rechercher

Toutes les institutions