Article de revue

De la naissance du syntagme au groupe accentuel et à la structure prosodique

Pages 73 à 89

Citer cet article


  • Martin, P.
(2022). De la naissance du syntagme au groupe accentuel et à la structure prosodique. Travaux de linguistique, 84-85(1), 73-89. https://doi.org/10.3917/tl.084.0073.

  • Martin, Philippe.
« De la naissance du syntagme au groupe accentuel et à la structure prosodique ». Travaux de linguistique, 2022/1 n° 84-85, 2022. p.73-89. CAIRN.INFO, shs.cairn.info/revue-travaux-de-linguistique-2022-1-page-73?lang=fr.

  • MARTIN, Philippe,
2022. De la naissance du syntagme au groupe accentuel et à la structure prosodique. Travaux de linguistique, 2022/1 n° 84-85, p.73-89. DOI : 10.3917/tl.084.0073. URL : https://shs.cairn.info/revue-travaux-de-linguistique-2022-1-page-73?lang=fr.

https://doi.org/10.3917/tl.084.0073


Note

  • [1]
    On se démarque ici de la conviction, ancienne, qu’une syllabe accentuée est accompagnée d’une variation mélodique importante, ou que les groupes accentuels constituent nécessairement des unités de sens.

1 – Introduction

1 L’article de Claire Blanche-Benveniste (2003) décrivant la naissance du syntagme à partir des « scories » observées dans le parler spontané s’est révélé déterminant pour la description phonologique de l’intonation de la phrase. Les « scories » de la parole spontanée, hésitations, répétitions, abandons, reformulations et surtout reprises, constituent autant d’indices observables pour assigner au groupe accentuel, séquence de mots ne comprenant qu’une seule syllabe accentuée finale en français (hors accent d’insistance), le rôle d’unité non seulement prosodique mais aussi lexicale, se substituant aux mots orthographiques. Cet accent se différencie de l’accent d’insistance, qui résulte d’un choix du locuteur, alors que l’accent du groupe accentuel procède d’une part d’une propriété morphologique (placement sur la syllabe finale d’un mot en français), et d’autre part d’une contrainte rythmique incontournable (indépendante du système linguistique et limitant les durées minimales et maximales des groupes accentuels, dont les séquences constituent le rythme [1]).

2 Le fait que, en parole spontanée, donc non préparée, presque tous les locuteurs produisent des hésitations et des répétitions en reprenant à chaque fois l’entièreté du groupe accentuel et non en le complétant suggère en effet qu’il s’agit là d’une unité minimale de production de parole, alors que ces groupes pourraient être énoncés par bribes complétées au fur et à mesure (comme souvent dans des productions théâtrales ou cinématographiques simulant la parole spontanée). Les exemples qui suivent, extraits du corpus Orféo (2021) en témoignent (les syllabes accentuées sont en caractères majuscules gras, les amorces entre parenthèses et les groupes accentuels entre crochets) :

[1]
[mais qu’est-ce qu’on a fAIt] (on a) [on a regardÉ] [des trUcs] euh [des trucs idiOts] [sur InternEt] (02amgl110912 46.803 s 55.666 s)
[2]
[ah ouAIs] [oh c’est fOU] [ouAIs] (j’aurais b-) [j’aurais bien aimÉ] euh
(02amgl110912 288.394 s 294.586 s)
[3]
[(mais c’est) [c’est Super U] [que j’étais allÉe] [c’est super chEr]
(01_og_nh_100222 694.436 s 700.880 s)
[4]
[(dans le cré-) (dans le le) [le crénEAU] [dans lequel vous vous situEZ]
(jobjx1r 2240.403 s 2245.113 s)
[5]
[(parce qu’elle rev-) [elle reviENt] [et tout le machIN] [mais en fAIt] euh [j’ai la flEmme]
(03_mw_cd_100222 3086.490 s 3091.160 s)

3 De ces observations sur la production en langage spontané, Claire Blanche-Benveniste conclut que la construction des syntagmes s’opère en deux étapes successives dans le temps : la mise en place d’un patron syntaxique, dans lequel s’insèrent ensuite les éléments lexicaux sélectionnés par le locuteur.

4 Ainsi, l’exemple [1] montre une mise en place d’une forme syntaxique on a, suivie d’une reprise pour y ajouter la sélection lexicale instanciée par le verbe regardé. Il s’agit donc bien non pas de compléter l’amorce de on a par regardé, mais d’une reprise du groupe entier on a regardé, terminé par une syllabe accentuée et constitutif du groupe accentuel [on a regardÉ]. Le même mécanisme se retrouve en [2] et en [3].

5 Dans [4] et [5], c’est l’élément lexical lui-même qui est interrompu. Il n’est pas complété par les syllabes manquantes, mais est réparé par une reprise de la construction syntaxique entière suivie de l’élément lexical, de manière à constituer un groupe accentuel [le crénEAU] en [4] et [elle reviENt] en [5].

6 Si ces exemples montrent bien que la sélection lexicale se produit après le placement d’un patron syntaxique (commençant par exemple par un déterminant ou un groupe verbal), on peut toutefois se demander pourquoi les locuteurs prennent la peine de reprendre l’entièreté des groupes accentuels ‘bien formés’ des points de vue syntaxique et lexical plutôt que de simplement compléter les syllabes manquantes après une amorce interrompue.

7 Ces observations mènent à considérer que la mise en place des groupes accentuels sur l’axe temporel survient avant l’insertion dans chacun de ces groupes d’un patron syntaxique (et de la sélection lexicale qui suit), cette mise en place étant soumise aux contraintes rythmiques des groupes accentuels (cf. Verluyten, 1982 ; Di Cristo, 2016). Dès lors, on est conduit à considérer les groupes accentuels comme unités minimales prosodiques, regroupant les unités minimales phonologiques que sont les syllabes. On retrouve d’ailleurs cette conception dans les différentes appellations du groupe accentuel comme mot prosodique (Martin, 1987), groupe rythmique, etc. (Wioland, 1984 ; Di Cristo, 2016).

8 Les réalisations de groupes accentuels dépourvus de scories, d’abandons, de reformulations, suggère de plus que ces groupes constituent non seulement des unités minimales prosodiques, mais aussi des unités lexicales complexes, dont les composantes syntaxiques et lexicales seraient mémorisées toutes faites, prêtes à l’emploi, ne demandant qu’un ajustement prosodique définissant leur place dans la structure prosodique de la phrase (Martin, 2018).

9 Les paragraphes qui suivent présentent différents arguments qui invitent à considérer la structuration prosodique, et donc le phrasé (la segmentation en groupes accentuels), comme une opération précédant la structuration syntaxique et la sélection lexicale. Cette organisation temporelle apparait dès lors comme une extension de celle présentée par Claire Blanche-Benveniste, qui ne concernait que ces deux dernières opérations.

2 – On ne lit pas mot à mot, mais groupe accentuel par groupe accentuel

10 Ces observations sur la production de parole spontanée suggèrent que ce n’est pas le mot, mais le groupe accentuel qui constitue l’unité minimale de production et de perception de la parole, que ce groupe comporte plusieurs mots, un seul mot ou une seule syllabe. En effet, on parle et on lit groupe de mots par groupe de mots : [une syllAbe] [accentuÉe], ou avec un débit très rapide [une syllabe accentuÉe]. Il reste toutefois possible de parler et de lire mot à mot, [Une] [syllAbe] [accentuÉe], ou même syllabe par syllabe [Une] [sY] [llAbe] [Ac] [cEN] [tU] [Ée[, unités caractérisées par une (seule) syllabe accentuée finale, ce qui leur confère le statut de groupe accentuel.

11 Dès lors, contrairement à ce qui est affirmé (Selkirk, 1980) à propos des langues dites à accent lexical (anglais, italien…), pour lesquelles la position de l’accent est une propriété du lexique, les mots inclus dans un groupe accentuel en français, langue à accent dit rythmique, ne sont pas nécessairement des mots dits « du contenu » ou mots lexicaux (verbes, noms, adjectifs et adverbes, par opposition aux mots grammaticaux tels que articles, prépositions, pronoms, conjonctions, verbes auxiliaires), comme l’ont affirmé entre autres Verluyten (1982) et Mertens (1992) (voir aussi Avanzi et Brognaux, 2016). En français, on peut aussi bien trouver des séquences comme mais pas quE, dépourvues de mots lexicaux, que l’ère glaciaire, réalisé selon le débit de parole avec un ou deux mots lexicaux : l’ère glaciAIre ou l’Ère glaciAIre. La catégorie grammaticale n’est donc pas pertinente en français pour déterminer l’accentuation des mots dans un groupe accentuel.

3 – Nature des groupes accentuels

12 Dans la production de parole, il est évidemment plus efficace de regrouper les mots pour constituer des groupes accentuels que de parler mot à mot, la réalisation de la syllabe accentuée finale impliquant une durée plus longue et la réalisation des syllabes accentuées successives, dans une prononciation syllabe par syllabe, demandant un espacement d’au moins ¼ de seconde pour que chacune soit perçue comme telle (voir ci-dessous). Mais quelle est la limite du nombre de syllabes, et éventuellement de mots, que l’on peut regrouper dans un seul groupe accentuel ?

13 Pour déterminer cette limite, il suffit d’examiner la prononciation de mots orthographiquement très longs, non pas en nombre de lettres, mais en nombre de syllabes. On évite ainsi le problème de l’évaluation du caractère accentué d’un mot dépendant du débit de parole (voir ci-dessous). À côté du anticonstitutionnellement (8 syllabes), des exemples comme paraskévidékatriaphobie (10 syllabes) ou intergouvernementalisation (10 syllabes) montrent qu’il n’est pas possible de prononcer ces mots, même silencieusement en voix intérieure, sans accentuer au moins une syllabe supplémentaire en plus de la syllabe finale, par exemple antIconstitutionnellemENt, paraskévIdékatriaphobIe et intErgouvernementalisatiON. Cet accent supplémentaire, parfois appelé secondaire, nous donne une indication quant à la durée maximale d’un groupe accentuel, puisque ces accents secondaires sont inévitables pour des mots très longs.

14 Ce ou ces accents secondaires ne sont pas placés au hasard, ils frappent une frontière morphologique connue (ou imaginée) par le locuteur. C’est aussi le cas pour des séquences de mots longues, à l’intérieur desquelles un accent ou plusieurs accents sont mis en place, sur la syllabe finale d’un mot de la séquence, de manière à instancier la limite d’un groupe accentuel faisant partie du lexique des groupes accentuels (privilégiant par exemple [de maniÈre] [à instanciER] plutôt que [de manière À] [instanciER].

4 – Variations des groupes accentuels

15 Il est également possible de constater que la présence d’un ou plusieurs accents secondaires dans un mot long orthographié dépend du débit de parole, un débit plus lent induisant plus d’accents secondaires qu’un débit rapide. L’analyse des données expérimentales (Martin, 2014) montre en effet que c’est la durée de prononciation et non pas le nombre de syllabes (et encore moins le nombre de lettres dans l’orthographe) qui détermine le nombre de mots qu’on peut insérer dans un groupe accentuel, avec comme seule contrainte phonologique d’avoir la dernière syllabe du groupe accentuée.

16 Ces données permettent d’établir que la durée maximale d’un groupe accentuel est de l’ordre de 1 250 ms à 1 350 ms, avec une durée moyenne de 500 à 600 ms (Martin, 2014, 2018). Un débit de parole moyen permet d’y accommoder 3 à 4 syllabes avec un débit de parole moyen. L’empan maximal d’un groupe accentuel de 1 350 ms admet 9 à 11 syllabes (cf. « parole de jeune »), valeur proche du maximum imposé par la durée minimale de durée syllabique de 100 ms (Ghitza, 2011), la syllabe accentuée finale devant être plus longue (au moins 150 ms). Un exemple de débit rapide est donné Figure 1.

Figure 1

Exemple de parole spontanée au débit très rapide avec deux syllabes accentuées définissant deux groupes accentuels

Description de l'image par IA : Spectrogram montrant une parole rapide avec deux syllabes accentuées.

Exemple de parole spontanée au débit très rapide avec deux syllabes accentuées définissant deux groupes accentuels

[je suis biEN] [au service verbal d’infractiON] (20091112_RATP_SCD_0215 8.057 s 9.648 s), corpus Decoda (Bechet et al., 2012)

17 Le second groupe comporte 8 syllabes prononcées en environ 1 100 millisecondes, soit une moyenne de 137 ms par syllabe.

18 Incidemment, il existe aussi une durée minimale des groupes accentuels, ou plus exactement un intervalle minimal entre deux syllabes successives toutes deux accentuées, pour que ces syllabes contiguës puissent être perçues comme accentuées. Cet intervalle est de l’ordre de 250 ms (Martin, 2014, 2018). Un exemple comme sur le fAIt quE… avec deux syllabes accentuées successives (souvent orthographié avec une séparation indiquée par une virgule : sur le fait, que) exige une séparation d’au moins 250 ms pour que les deux syllabes soient perçues comme accentuées. En réduisant cet intervalle, par exemple à 200 ms, par un éditeur de signal, sans modifier les propriétés acoustiques des syllabes, on s’aperçoit que la première syllabe cesse d’être perçue comme accentuée, ce qui ne serait pas le cas si la syllabe suivante est non accentuée (Figure 2 et Figure 3).

Figure 2

Attirer votre attention sur le fAIt quE # la description qu’on qu’on en fait (Voix de Anne Catherine Simon)

Description de l'image par IA : Spectrogram avec ondes sonores et transcription textuelle en français.

Attirer votre attention sur le fAIt quE # la description qu’on qu’on en fait (Voix de Anne Catherine Simon)

Figure 3

Attirer votre attention sur le fait quE la description qu’on qu’on en fait (Voix de Anne Catherine Simon)

Description de l'image par IA : Spectrogram avec texte "le fait que" et ondes sonores.

Attirer votre attention sur le fait quE la description qu’on qu’on en fait (Voix de Anne Catherine Simon)

19 Il s’agit dans cet exemple du gap entre les deux voyelles successives de fait et que (et non de celui, plus important, entre que et la description…). Ce gap est de 266 ms, rendant la perception des deux syllabes successives fait et que accentuées.

20 Le gap entre les deux voyelles accentuées de fait et que a été réduit à 172 ms par un éditeur de signal, rendant perçue comme accentuée la seule deuxième syllabe.

5 – Le phrasé dépend du débit de parole

21 Les réalisations des syllabes accentuées, et donc la segmentation en groupes accentuels, le phrasé, dépend du débit de parole ou de la vitesse de lecture, même silencieuse. Prononcée à débit moyen, la phrase la ville de Paris est segmentée en deux groupes accentuels : [la vIlle] [de ParIs], alors qu’un débit rapide détermine un seul groupe : [la ville de ParIs]. Un débit très lent entraine une segmentation en syllabes détachées, et donc en cinq groupes accentuels : [lA] [vIlle] [dE] [PA] [rIs].

22 La Figure 4 présente un exemple de débit très rapide instanciant une structure de liste, enchainant les groupes accentuels pourvus de contours à faible variation mélodique, inférieure au seuil de glissando, dont les variations mélodiques sont perçues comme des tons statiques.

Figure 4

Exemple d’une structure de liste enchainant les groupes accentuels pourvus de contours neutralisés à faible variation mélodique

Description de l'image par IA : Graphique avec des lignes bleues et noires, des ondes sonores et texte en bas.

Exemple d’une structure de liste enchainant les groupes accentuels pourvus de contours neutralisés à faible variation mélodique

23 Le débit très rapide et la structure prosodique plate rendent la compréhension plus difficile pour certaines classes d’âge : [elle était diffusÉe] [à la télévisiON] [à la radiO] euh [régulièremENt] [ces derniers mOIs]… (France Info, 4.12.2020)

6 – Plasticité du groupe accentuel et eurythmie

24 Les groupes accentuels présentent une autre propriété intéressante, remarquée depuis longtemps par les praticiens de l’enseignement du français langue étrangère (Wioland, 1984) : la plasticité de la durée syllabique à l’intérieur du groupe accentuel. Les données expérimentales montrent que la durée moyenne syllabique a tendance à être plus courte dans les groupes accentuels avec un grand nombre de syllabes (jusqu’à 9 ou 10), et inversement plus longue lorsque les groupes accentuels contiennent peu de syllabes (Martin, 2014). Dans [Marie AIme] [les chocolAts] (3-3 syllabes) vs [MarIe] # [aime les chocolAts] (2-4 syllabes), on observe une tendance à (a) ralentir le débit de [Marie] et accélérer sur [aime les chocolats] et/ou (b) insérer une pause après le groupe accentuel [Marie] pour équilibrer les durées des deux parties de cet énoncé (isochronie).

25 Il existe en effet un processus eurythmique favorisant la réalisation de groupes accentuels successifs de durée comparable. Ceci s’observe dans la parole spontanée en allongeant ou en réduisant la durée syllabique moyenne des groupes accentuels, et dans la parole lue, en regroupant les mots pour former des groupes accentuels avec un nombre comparable de syllabes, éventuellement au détriment de leur congruence avec les groupes syntaxiques (Wioland, 1984 ; Verluyten, 1982 ; Pasdeloup, 2004). Il y a donc tendance soit à l’isochronie des groupes accentuels dans la parole spontanée, soit à l’isosyllabicité dans la lecture.

7 – La ‘gomme prosodique’

26 On a vu que lorsque la prononciation d’un groupe accentuel est interrompue avant son achèvement, c’est-à-dire avant la réalisation de sa syllabe accentuée finale, le locuteur reprend (presque) toujours l’entièreté du groupe accentuel : [3] (mais c’est) [c’est Super U] avec abandon de mais. En l’absence de syllabe accentuée finale, le groupe accentuel interrompu (mais c’est) et donc incomplet n’est généralement pas pris en compte en tant qu’unité lexicale ou syntaxique par l’auditeur (effet de « gomme prosodique », Blanche-Benveniste et Martin, 2011). La reprise ou la reformulation par un groupe accentuel complet suggère que ces unités sont mémorisées telles quelles et fonctionnent comme des unités lexicales, ou en tout cas ne sont prises en compte par l’auditeur que lorsque leur syllabe accentuée finale est perçue. Ce n’est que dans des conditions très particulières qu’on observe la complétion d’un groupe accentuel interrompu, pour simuler une hésitation ou obtenir un effet stylistique de nature théâtrale. La Figure 2 confirme l’observation : à l’écoute la réalisation de la séquence qu’on suivie d’une reprise qu’on en fait est difficile à percevoir même lors d’une écoute attentive, ce qui suggère qu’un groupe accentuel inachevé en français, donc interrompu avant l’occurrence de la syllabe accentuée finale, n’est pas traité perceptivement par l’auditeur.

8 – La parole silencieuse

27 À de très rares exceptions (p. ex. surdité de naissance), la lecture silencieuse entraine la sous-vocalisation, c’est-à-dire la production d’une voix intérieure présentant toutes les caractéristiques de la parole orale, et en particulier l’intonation et la segmentation du flot de parole en groupes accentuels. Ce processus est inévitable, une lecture iconique sans sous-vocalisation n’advenant éventuellement que pour des groupes de mots particuliers comme certaines dates (e.g. « 1789 ») ou panneaux routiers (e.g. « STOP »).

28 Alors que les mouvements oculaires opérant par saccades permettent de repérer les mots de groupes accentuels successifs d’un texte lu silencieusement en quelque 70 ms à 80 ms (Quercia, 2010), la sous-vocalisation ralentit la lecture en limitant la durée d’identification à au moins 250 ms pour chaque groupe accentuel (Martin, 2014, Rimmele et al., 2021). Pour s’en rendre compte, il suffit de chronométrer la durée de lecture silencieuse d’un paragraphe, et de diviser par le nombre de groupes accentuels tels que déterminés par le lecteur. Les techniques de lecture rapide ne lèvent qu’apparemment cette contrainte, en sélectionnant plus ou moins efficacement des mots-clés dans le texte, lesquels se présentent au lecteur comme une longue liste de mots sans organisation syntaxique.

9 – Ondes cérébrales

29 Une des deux contraintes de constitution d’un groupe accentuel est en fait non pas le nombre de syllabes, mais sa durée de prononciation, d’où le nom souvent rencontré de groupe rythmique. L’autre contrainte, phonologique, porte sur la syllabe finale du dernier mot du groupe, qui doit être accentuée. On a vu que l’intervalle entre deux syllabes accentuées successives se situe dans une gamme temporelle de 250 ms à 1 250/1 350 ms. Ces caractéristiques temporelles des groupes accentuels, jointes à l’effet de gomme prosodique et à la limitation de vitesse de lecture silencieuse, suggèrent un lien avec les ondes cérébrales delta, qui oscillent, dans une gamme de fréquence située entre 0,8 Hz et 4 Hz, c’est-à-dire dans la même gamme temporelle, entre 250 ms et 1 250 ms. Cette synchronisation opère dans les deux directions (Martin, 2018) : bottom-up, de bas en haut, lorsque les syllabes accentuées « mettent au pas » les impulsions delta, et top-down, de haut en bas, lorsqu’une impulsion delta induit la perception d’une syllabe accentuée qui ne serait pas caractérisée acoustiquement (par exemple pour un accent secondaire dans un mot long).

Figure 5

Il y a une espèce de # de petite festivité là (chabp1r 1468.617 s 1471.874 s Orféo)

Description de l'image par IA : Graphique avec des lignes bleues et vertes, axes numériques, données fluctuantes.

Il y a une espèce de # de petite festivité là (chabp1r 1468.617 s 1471.874 s Orféo)

30 Le gap entre les deux syllabes accentuées successives dE et festivitÉ est de 1 735 ms, supérieur à l’intervalle maximal de 1 250/1 350 ms en parole continue. Une syllabe accentuée supplémentaire est perçue sur petite, alors qu’aucun paramètre acoustique ne semble indiquer son caractère accentué.

10 – La structure prosodique

31 La structure prosodique de la phrase est définie comme un regroupement des groupes accentuels en plusieurs niveaux, regroupement déterminé par des relations de dépendance indiquées par des mouvements mélodiques à l’endroit des voyelles des syllabes accentuées. Ces mouvements mélodiques sont classés selon leur direction montante ou descendante, au-dessus ou en dessous du seuil de perception d’un changement mélodique, le seuil de glissando, différenciant les changements mélodiques perçus comme tels de ceux perçus comme des tons statiques. On peut donc aussi bien avoir des voyelles de syllabes accentuées porteuses de variations mélodiques importantes que de variations faibles perçues comme des tons statiques.

32 Alors que pour des modèles inspirés du cadre dominant autosegmental-métrique, la structure prosodique procède d’une percolation à partir des propriétés morphosyntaxiques du texte (Delais-Roussarie, Post and Yoo, 2020), l’hypothèse d’une structure prosodique indépendante implique qu’il faut en rendre compte à partir des seuls évènements prosodiques, sans faire intervenir d’autres structures – syntaxique, informationnelle ou sémantique. C’est l’examen des conditions nécessaires et suffisantes pour que les contours mélodiques indiquent sans ambiguïtés des structures prosodiques de complexité croissante avec 1, 2,…n groupes accentuels qui permettent de décrire le fonctionnement d’une structure prosodique indépendante (Martin, 2018).

33 Une structure prosodique indépendante implique aussi un modèle de production et de perception dans lequel se succèdent des mises en place de cadres temporels des groupes accentuels, de durée prédéterminée par le locuteur, et soumis aux contraintes rythmiques déterminées par les oscillations cérébrales delta (250 ms – 1 250/1 350 ms et eurythmie). Sont ensuite insérées dans ces cadres des microstructures syntaxiques ainsi que les éléments lexicaux « du contenu » (verbes, adjectifs, noms et adverbes).

34 Selon ce modèle, l’ordre des opérations effectuées par le locuteur (et le lecteur) est donc inversé par rapport au modèle dominant anglo-saxon. Alors que dans celui-ci la syntaxe est d’abord mise en place, accompagnée d’évènements prosodiques qui en dépendent, dans l’approche inverse c’est la séquence des groupes accentuels, regroupés en plusieurs niveaux planifiés par le locuteur, qui est suivie dans un second temps de l’insertion d’un patron syntaxique et d’une sélection lexicale. La planification du locuteur – et ceci est également valable pour le lecteur – procède dans un empan temporel correspondant à la mémoire à court terme de la parole continue, qui n’est que de 2 à 3 secondes (alors qu’on peut garder en mémoire le souvenir sonore d’une phrase isolée de courte durée pendant 20 à 30 secondes, voir Martin et al., 2014).

35 Ce renversement de l’ordre des opérations prosodie-syntaxe mène à considérer la phonologie des évènements prosodiques de manière beaucoup plus simple, en posant comme hypothèse que la structure prosodique est indiquée par des relations de dépendance entre groupes accentuels, relations indiquées par des marques prosodiques alignées sur les voyelles des syllabes accentuées, c’est-à-dire en position finale des groupes accentuels. L’examen de la combinatoire des différentes configurations possibles de structures prosodiques de complexité croissante (1, 2,…n groupes accentuels) conduit à déterminer les conditions nécessaires et suffisantes que doivent remplir les traits phonologiques pour assurer cette fonction, ces traits étant instanciés par des mouvements mélodiques à découvrir à l’endroit des voyelles accentuées (toujours hors accent d’insistance) (Martin, 2018).

11 – Les contours mélodiques

36 Les mouvements mélodiques peuvent être catégorisés phonologiquement (1) selon qu’ils sont montants ou descendants et (2) selon qu’ils sont au-dessus ou en dessous d’un seuil de perception d’une variation mélodique, par opposition à celle d’un ton statique. Ce seuil, qui peut être estimé, à partir de données acoustiques, par la formule k * (demiTon2- demiTon1) / (t2-t1)2, c’est-à-dire la différence de fréquence du mouvement mélodique exprimé en demi-tons rapporté au carré de la durée de ce mouvement, le coefficient k étant une variable d’ajustement variant entre 0,16 et 0,32 (Rossi, 1971). Les variations inférieures à ce seuil sont estimées être perçues comme des tons statiques, aux deux tiers de la variation mélodique.

37 Le seuil de glissando, combinant la variation mélodique à sa durée, permet une différenciation des variations mélodiques perçues comme telles de celles perçues comme un ton statique. Ce seuil relève donc d’une propriété intrinsèque de la structure prosodique, et non d’un trait de nature syntaxique ou sémantique. Toutefois, le seuil de glissando estimé à partir des mesures acoustiques n’en constitue qu’une approximation, d’autant qu’il dépend en réalité de la nature de la voyelle, de la valeur relative de l’intensité, etc.

38 Les réalisations de ces contours phonologiques peuvent présenter des différences phonétiques pour diverses variétés du français, mais contrastent toujours de la même manière par les traits +/- Final (le contour atteint une hauteur mélodique extrême basse dans le cas déclaratif Cdec↓, haute dans le cas interrogatif Cint↑), +/- Montant et +/- Glissando (au-dessus ou en dessous du seuil de glissando).

39 La description phonologique des contours ainsi définis est donnée dans le Tableau 1 :

Tableau 1

Traits phonologiques différenciant les contours mélodiques en français

Final (fréquence Extrême)MontantGlissandoDevant pause
Cdec↓+-+/--
Cint↑+++-
Cris ↗-++-
Cfap ↘#--++
Cfal ↘--+-
Cneu→-+/---
Cneu# ←-+/--+

Traits phonologiques différenciant les contours mélodiques en français

40 Un contour particulier Cfap↘#, descendant devant une pause d’au moins ¼ seconde, est une variante du contour montant Cris↗ et est caractéristique du style de la dictée, souvent utilisée dans le discours politique. Cris↗ et Cfal↘ sont appelés respectivement continuation majeure et continuation mineure, en référence à la terminologie de Delattre (1966), Cneu→ étant un contour neutralisé, inférieur au seuil de glissando, de forme Cneu# devant pause.

12 – Grammaire prosodique

41 La hiérarchie des contours Cneu→, Cfal↘, {Cris↗, Cfap↘#}, Cdec↓ C0n← (cas déclaratif) et Cneu→, Cris↗, Cfal↘, Cint↑ (cas interrogatif) détermine les relations de dépendance constituant la grammaire prosodique. Un contour donné indique une relation de dépendance envers le premier contour de rang supérieur situé plus loin dans la phrase (i.e. « à sa droite » ou « à sa gauche » en ce qui concerne le contour neutre C0n← correspondant au thème dans une configuration propos-thème).

42 En notant les relations de dépendance par des flèches –> pour une dépendance « à droite », c’est-à-dire envers un évènement prosodique advenant plus tard dans la phrase, et <– pour une dépendance « à gauche », i.e. envers un évènement prosodique advenant plus tôt dans la phrase, les relations de dépendance entre les contours mélodiques du français dérivées de la hiérarchie des contours Cneu→, Cfal↘, {Cris↗, Cfap↘#}, Cdec↓, C0n← (cas déclaratif) et Cneu→, Cris↗, Cfal↘, Cint↑ (cas interrogatif) sont :

[A]{Cris↗, Cfap↘#} -> Cdec↓Un contour montant supérieur au seuil de glissando Cris↗, et sa variante Cfap↘# descendant devant pause une dépendance du groupe terminé par Cris↗ envers le terminé par Cdec↓, ce qui signifie que tous les groupes accentuels regroupés sous la tête Cris↗ (ou Cfap↘#) sont regroupés avec tous les groupes accentuels regroupés sous la tête de Cdec↓ (voir l’exemple ci-dessous).
[B]Cfal↘ -> {Cris↗, Cfap↘#}indique la dépendance du contour Cfal↘ par rapport au contour Cris↗ (ou Cfap↘#) « à droite », c’est-à-dire advenant plus tard dans la phrase. Cneu→ -> {Cfal↘, Cris↗, Cfap↘#, Cdec↓} indique la dépendance du contour Cneu→ par rapport aux contours Cfal↘, Cris↗, Cfap↘# ou Cdec↓ « à droite », c’est-à-dire planifiés pour apparaitre plus loin dans la phrase.
[C]Cdec↓ <- Cneu# ← dépendance « à gauche », cas de la division focus-topic déclarative (Martin, 2008).
[D]Cint↑ <- Cint↑dépendance « à gauche », cas de la division focus-topic interrogative. Le contour descendant devant pause Cfap↘# est une variante du contour montant Cris↗. On ne trouve jamais de contour Cris↗ qui en dépende, seulement des contours descendants Cfal↘ ou neutralisés Cneu→.

43 On a donc là une contrainte forte de la grammaire prosodique du français, où le contour descendant Cfal↘ doit nécessairement être suivi quelque part dans une phrase (complète…) d’un contour montant Cris↗ (ou Cfap↘#), et où le contour montant Cris↗ doit lui être nécessairement suivi plus tard d’un contour terminal, planifié par le locuteur, Cdec↓. Des séquences de contour comme *Cfal↘ Cdec↓ ou *Cfal↘ Cneu→ Cdec↓ sont donc agrammaticales (Martin, 2018). Par contre, une séquence Cfap↘# Cdec↓ est possible, Cfap↘# étant une variante de Cris↗.

13 – Un exemple de structure prosodique

44 L’exemple agneau ou veau faut que le beau rôti soit chaud (voix de Georges Boulakia) illustre le mécanisme d’indication de la structure prosodique à partir des relations de dépendance entre groupes accentuels, telles qu’indiqués par les contours mélodiques placés sur les voyelles accentuées.

45 Dans la prononciation du locuteur (il s’agit d’une phrase lue à débit plutôt lent de l’ordre de 5 syllabes par seconde), on peut noter 6 voyelles accentuées, et donc 6 groupes accentuels (entre crochets) :

(1)
[agnEAU] [ou vEAU] [fAUt] [qu(e) le bEAU] [rôtI] [soit chAUd].

46 Le tracé de la courbe mélodique (Figure 6 infra) retient cette solution et montre une variation quasi linéaire surlignée à l’endroit des voyelles accentuées, avec respectivement :

(a)un contour descendant supérieur au seuil de glissando terminant [agnEAU], donc perçu comme variation mélodique descendante, catégorisé comme Cfal↘ sur la voyelle finale [ou vEAU] ;
(b)un contour montant, également supérieur au seuil de glissando et perçu comme variation mélodique montante, catégorisé comme Cris↗ ;
(c)un contour de faible variation mélodique, inférieure au seuil de glissando et perçu comme ton statique, Cneu→ neutralisé positionné sur la voyelle de [fAUt] ;
(d)un autre contour neutralisé Cneu→ terminant [qu(e) le bEAU] ;
(e)un troisième contour neutralisé Cneu→ terminant [rôtI] ;
(f)et enfin le contour terminal conclusif Cdec↓sur la syllabe finale de [soit chAUd].

47 Les relations de dépendance indiquées par ces contours mélodiques déterminent les regroupements successifs des groupes accentuels au fur et à mesure de l’avancement dans la production ou l’écoute de la phrase dans le temps :

(a)[agnEAU] Cfal↘ attente d’un contour dont Cfal↘ peut dépendre ;
(b)[ou vEAU] Cris↗ regroupement de [agnEAU] et [vEAU] indiqués par la dépendance de Cfal↘ par rapport à Cris↗ pour former le syntagme prosodique [[agnEAU] [ou vEAU]] ;
(c)[fAUt] Cneu→ attente d’un contour dont Cneu→ peut dépendre ;
(d)[qu(e) le bEAU] Cneu→ attente d’un contour dont Cneu→ peut dépendre ;
(e)[rôtI] Cneu→ attente d’un contour dont Cneu→ peut dépendre ;
(f)[soit chAUd] Cdec↓ contour terminal conclusif, auquel se rattachent les contours précédents, chacun à leur niveau, c’est-à-dire d’abord [fAUt], [qu(e) le bEAU], [rôtI] et [soit chAUd] dans une structure de liste [[fAUt] [qu(e) le bEAU] [rôtI] [soit chAUd]], ensuite le syntagmes prosodique terminé par Cris↗ [[agnEAU] [ou vEAU]] pour former finalement la structure prosodique
[[agnEAU] [ou vEAU]] [[fAUt] [qu(e) le bEAU] [rôtI] [soit chAUd]]

48 Cette structure est représentée graphiquement par une arborescence aux branches orthogonales dans la Figure 6.

Figure 6

Analyse acoustique de la phrase lue agneau ou veau faut que le beau rôti soit chaud [GB]

Description de l'image par IA : Graphique d'analyse acoustique avec des ondes bleues, vertes et rouges, et des pics en bas.

Analyse acoustique de la phrase lue agneau ou veau faut que le beau rôti soit chaud [GB]

49 Cette analyse montre la segmentation en groupes accentuels et la structure prosodique (branches orthogonales) telle qu’indiquée par les contours mélodiques à l’endroit des voyelles accentuées : Cfal↘, descendant supérieur au seuil de glissando, Cris↗, montant supérieur au seuil de glissando, trois contours neutralisés inférieurs au seuil de glissando, et un contour terminal conclusif, atteignant le niveau mélodique le plus bas par rapport aux six autres contours de la phrase.

14 – Conclusion

50 Ces différentes observations permettent de conclure que, tout comme l’unité phonologique minimale utilisée par les locuteurs en français est la syllabe et non le phonème, l’unité minimale lexicale est le groupe accentuel et non le mot, ceci dans l’hypothèse où le phrasé est mis en place avant la structure syntaxique et avant la sélection lexicale, ce que révèlent des données de parler spontané en français.

51 La structure prosodique, telle qu’indiquée par les mouvements mélodiques à l’endroit des voyelles des syllabes accentuées en position finale des groupes accentuels, structure les groupes accentuels en plusieurs niveaux, de manière plus ou moins congruente avec la syntaxe, de manière à faciliter l’appréhension rapide du sens de la phrase par l’auditeur (et le lecteur), un processus essentiel et d’ailleurs incontournable étant donné la faible rémanence des phrases dans la parole continue.

52 Le fait, d’autre part, qu’en lecture orale ou silencieuse, on ne peut se passer ni d’une segmentation en groupes accentuels, ni de leurs regroupements en structure prosodique, mène à considérer, et c’est une évidence, qu’en fait le texte écrit n’existe pas comme objet linguistique sans être oralisé, tout comme une partition musicale demande un interprète pour exister, même en lecture silencieuse de la partition. C’est la création, incontournable sauf pour un ordinateur, d’une intonation de phrase par le locuteur ou le lecteur qui, en définitive, guide l’auditeur dans le décodage du texte et l’accès au sens.

53 Ceci pose du reste la question de la pertinence des analyses (macro)syntaxiques basées seulement sur la transcription écrite de parole spontanée.

Références bibliographiques

  • Avanzi M. et Brognaux S., 2016, « Une analyse multi-niveau du phrasé prosodique des adjectifs en français », Langue française, 191, p. 107-121.
  • Bechet F., Maza B., Bigouroux N., Bazillon T., El Beze M., De Mori R. et Arbillot E., 2012, « DECODA : a call-centre human-human spoken conversation corpus », Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC’12), p. 1343-1347.
  • Blanche-Benveniste C., 2003, « La naissance des syntagmes dans les hésitations et répétitions du parler », in Araoui J.L., Le Sens et la mesure. Hommages à Benoît de Cornulier, Paris, Honoré Champion, p. 40-55.
  • Blanche-Benveniste C. et Martin Ph., 2011, « Structuration prosodique, dernière réorganisation avant énonciation », Langue française, 170, p. 127-142.
  • Di Cristo A., 2016, Les musiques du français parlé, Boston, De Gruyter.
  • Delattre P., 1966, « Les dix intonations de base du français », French Review, 40, p. 1-14.
  • Delais-roussarie E., Post B. et Yoo H.Y., 2020, « Prosodic Units and Intonational Grammar in French : towards a new Approach », Proceedings of Speech Prosody, p. 126-130.
  • Ghitza O., 2011, « Linking speech perception and neurophysiology : speech decoding guided by cascaded oscillators locked to the input rhythm », Frontiers in Psychology, 2, article 130.
  • Martin Ph., 1987, « Prosodic and rhythmic structures in French », Linguistics, 25, p. 925-949.
  • Martin Ph., 2008, « Postfixes et suffixes interrogatifs : un cas d’ambiguïté prosodique ? », Actes de la conférence de la section tchéco-slovaque de l’ISPhS 2008, 19 janvier 2008, p. 111-119.
  • Martin Ph., 2014, « Spontaneous speech corpus data validates prosodic constraints », in Campbell N., Gibbon D. et Hirst D., Proceedings of the 6th conference on speech prosody, p. 525-529.
  • Martin Ph., 2018, Intonation, structure prosodique et ondes cérébrales, Londres, ISTE.
  • Martin R., Yan H. et Schnur T., 2014, « Working memory and planning during sentence production », Acta Psychologica, 152C, p. 120-132.
  • Mertens P., 1992, « L’accentuation des syllabes contiguës », Instituut voor Toegepaste Linguistiek, 95/96, p. 145-164.
  • Orféo 2021, Outils et Recherches sur le Français Écrit et Oral, http://www.projet-orfeo.fr/ (consulté le 20.04.2021).
  • Pasdeloup V., 2004, « Le rythme n’est pas élastique : étude préliminaire de l’influence du débit de parole sur la structuration temporelle », Actes des JEP 2004, Fès (Maroc), 19-22 avril 2004.
  • Quercia P., 2010, « Ocular movements and reading : a review », Journal Français d’Ophtalmologie, 33 (6), p. 416-423.
  • Rimmele J., Poeppel D. et Ghitza O., 2021, « Acoustically Driven Cortical Oscillations Underpin Prosodic Chunking », eNeuro, 8(4).
  • Rossi M., 1971, « Le seuil de glissando ou seuil de perception des variations tonales pour la parole », Phonetica, 23, p. 1-33.
  • Selkirk L., 1980, « The role of prosodic categories in English word stress », Linguistic Inquiry, 11, p. 563-605.
  • Verluyten P., 1982, Recherches sur la prosodie et la métrique du français, Antwerpen, Universitaire Instelling.
  • Wioland F., 1984, « Organisation temporelle des structures rythmiques du français parlé », Bulletin des rencontres régionales de linguistique, Lausanne, 7-9 juin 1984, p. 293-322.

Mots-clés éditeurs : groupe accentuel, intonation, ondes cérébrales, parole spontanée, structure prosodique

Date de mise en ligne : 01/08/2023

https://doi.org/10.3917/tl.084.0073