L'exploration de la BDTS (Banque de données textuelles de Sherbrooke) au moyen d'Hyperbase
- Par Étienne Brunet
Page 9
Citer cet article
- BRUNET, Étienne,
- Brunet, Étienne.
- Brunet, É.
https://doi.org/10.4000/mots.16752
Citer cet article
- Brunet, É.
- Brunet, Étienne.
- BRUNET, Étienne,
https://doi.org/10.4000/mots.16752
Notes
-
[1]
Le nom d’André Clas est lié à cette entreprise.
-
[2]
Claude Poirier, responsable de la base QuébéText, a la charge du dictionnaire historique.
-
[3]
C’est l’un des onze corpus lexicaux que propose le réseau québécois, à l’adresse : http://www.spl.gouv.qc.ca/corpus/index.html
-
[4]
Pierre Martel, du temps qu’il était à la tête du Conseil de la langue française au Québec, recommandait dès 1990 la création d’un corpus original québécois. Libéré de sa charge administrative, il a mis en œuvre ce projet avec quelques collègues de Sherbrooke et de Laval.
-
[5]
On peut citer, parmi d’autres exemples, l’édition québécoise du Petit Robert. Ces tentatives ont reçu un accueil mitigé. Le temps de la colonisation linguistique est révolu. À l’image du Brésil pour le portugais et des États-Unis pour l’anglais, le Québec affirme son indépendance en matière de langue.
-
[6]
Comme le corpus littéraire n’est pas détaillé dans cette annexe, précisons qu’on y trouve un roman (L’ange exterminé de G. Bodin), des contes et nouvelles (Le cassé et autres nouvelles de J. Renaud, et Contes sur la pointe des pieds de G. Vigneault), une pièce de théâtre (La Dalle-des-Morts de F.-A. Savard) et un essai de critique littéraire (Écrire de la fiction de N. Aubert). L’exemple de yeule qui fait l’objet de la figure 1 est emprunté au corpus littéraire, d’où le « joual » n’est pas absent. Mais si le joual peut à l’occasion se rencontrer dans la documentation, il n’entre pas dans la nomenclature du québécois standard.
-
[7]
En cinq mots l’orthographe pittoresque et suggestive de la citation évoque le parler du pays, qui n’est pas sans rappeler celui des campagnes dans l’ouest de la France, où l’on observe pareillement l’allongement et l’épaississement du a précédé de r (fâme) et le relâchement articulatoire qui transforme en yod une occlusive initiale : gueule > yeule, dieu > yeu, queue > yeue. Ajoutons que pis pour puis s’entend encore en France en milieu rural.
-
[8]
Cela ne va pas sans quelque lourdeur, lorsqu’un mot a une certaine fréquence et qu’on ne dispose pas d’un haut débit. Le défilement des contextes se faisant pas à pas et exigeant à chaque citation l’intervention de l’utilisateur, le dialogue s’en trouve ralenti.
-
[9]
Loin d’être hostile aux méthodes lexicométriques, P. Martel a publié en 1992 un Dictionnaire de fréquence des mots du français parlé au Québec (avec Norman Beauchemin et Michel Théoret).
-
[10]
Les relations sémantiques ne sont pas seules en cause. La syntaxe explique la présence de certains éléments, comme du et au qu’impose l’accord avec le mot-pôle.
-
[11]
Cette lemmatisation, due au logiciel Cordial, est indépendante de celle dont certains textes du corpus ont pu bénéficier à l’université de Sherbrooke, comme indiqué en annexe.
-
[12]
Le coefficient de proximité qu’on obtient et qui évolue entre 0 et 1 n’a pas la vertu différentielle que son auteur lui alloue. C’est une mesure globale qui ne distingue pas, dans la distance observée, ce qui tient à l’écrivain, au genre, à l’époque et au sujet et qui ne permet en aucune façon de dire si Molière et Corneille sont un seul et même auteur.
-
[13]
La synthèse et la représentation du tableau des distances sont dues à Luong et Barthélémy, inventeurs de l’analyse arborée, que nous avons incorporée au logiciel hyperbase.
-
[14]
La syntaxe explique la liaison forte qui s’établit entre le substantif et les déterminants. Elle ne justifie qu’en partie la relation substantif-préposition, car la préposition peut introduire aussi bien un pronom et un infinitif. De plus beaucoup de prépositions entrent dans la composition des subordonnants et annoncent une proposition subséquente, et donc un verbe.
-
[15]
Sous la direction de J. Chaurand , 1999, « Ce que disent les chiffres », Paris, Le Seuil, p. 673-727.
-
[16]
En réalité ce troisième larron était déjà dans la place, aux temps anciens. Il régnait dans le sabir des gens de loi, d’église ou de médecine. Mais il est vrai qu’il parlait latin et que l’honnête homme s’en tenait éloigné.
-
[17]
Il y a 40 occurrences de tabernacle dans le corpus, toutes observées à l’oral, sauf six exemples relevés dans la presse et une citation – allusive – dans un texte sociologique.
-
[18]
Mais dans ce cas la minuscule est vite adoptée, ce qu’on observe avec joule, ampère, watt, ohm, becquerel, bel, décibel, etc.
-
[19]
Curieusement c’est la liste des spécificités négatives (colonne de droite du tableau 9), qui fournit l’indice le plus clair. Quand on connait le sous-emploi au Québec de la négation ne, trouver ce mot en tête des déficits est un signe non trompeur.
-
[20]
Le calcul des spécificités est appliqué non seulement aux formes, aux lemmes, aux codes grammaticaux et aux structures syntaxiques mais aussi aux phrases caractéristiques.
On s’intéresse ici à l’un des grands projets de recherche que suscite l’intérêt passionné du Québec pour sa langue. Sous le titre de BDTS (Banque de données textuelles de Sherbrooke), l’entreprise vise à établir un corpus représentatif des usages québécois et à en extraire un dictionnaire. Le présent article explore cette base textuelle à l’aide du logiciel hyperbase.
- sociolinguistique
- lexicométrie
- Québec
- Hyperbase
Mots-clés éditeurs : Hyperbase, lexicométrie, Québec, sociolinguistique
This paper focuses on one of the biggest research projects which are most likely to trigger the impassioned interest of the people of Quebec in their language. The project aims at establishing a representative corpus of Quebec usages and eventually make a dictionary out of them. Such a textual database is examined here thanks to HYPERBASE software.
- Sociolinguistics
- lexicometry
- Quebec
- Hyperbase
Mots-clés éditeurs : Hyperbase, lexicometry, Quebec, Sociolinguistics
Lo que nos interesa aquí es uno de los grandes proyectos de investigación que apasionó al Quebec por su lengua. Bajo el rótulo de BDTS (Banque de données textuelles de Sherbrooke), se trata de establecer un corpus representativo de los usos de la lengua del Quebec y de crear un diccionario. Este artículo explora esta base textual gracias a HYPERBASE.
- sociolingüística
- lexicometría
- Quebec
- Hyperbase
Mots-clés éditeurs : Hyperbase, lexicometría, Quebec, sociolingüística