Notes
-
[1]
Sans doute parce que, à ce jour, aucune description linguistique n’a démontré sa supériorité dans l’analyse des discours, et les systèmes statistiques sont toujours prédominants ; mais les corpus de référence, en plein essor, servant de corpus d’apprentissage des structures linguistiques, sont utilisés dans les systèmes d’apprentissage qui aboutissent à des traitements statistiques des discours (cf. de Loupy 2003).
-
[2]
Nous n’évoquerons pas ici le paramètre synchronique et la prise en compte de l’opposition langue générale/langue spécialisée, ni la diversité et la perméabilité des langues spécialisées, pourtant également incontournables.
-
[3]
On rappelle, avec Colson (2010), que la fréquence des mots d’une langue obéit à la loi de Zipf-Mandelbrot, qui définit le vocabulaire d’une langue comme porteurs de trois groupes de mots : les mots extrêmement fréquents, en nombre très restreint, les mots moins fréquents et la plus grande masse des mots ayant une fréquence extrêmement faible ; toute interprétation de calcul basé sur la fréquence doit garder ce principe en tête, car la fréquence absolue n’est pas un critère d’appartenance ou non au vocabulaire d’une langue.
-
[4]
Le choix de ces moteurs s’est basé principalement sur trois critères : volume du corpus, accessibilité aux requêtes automatisées, potentiel d’interrogation.
-
[5]
Sur ce point et le suivant voir le § 1.3.1 de Jacquet-Pfau et al. (2011).
-
[6]
Nous renvoyons aux ouvrages fondateurs sur les statistiques lexicales (Lebart & Salem 1994 ; Manning & Schütze 1999).
-
[7]
(G) et (D) renvoient respectivement à ‘mot qui se trouve dans le contexte gauche’ et ‘mot qui se trouve dans le contexte droit’.
1. INTRODUCTION
1 Pour le Traitement Automatique des Langues (TAL), la description linguistique est, sans doute [1], la ressource centrale pour automatiser la compréhension et la génération des discours. Mais cette description, faite manuellement, nécessite un temps considérable de dépouillement et d’analyse qui ne permet pas son utilisation dans des logiciels industriels. Par ailleurs, ces systèmes, en dehors de leur plus ou moins grande qualité et richesse descriptives, ne prennent pas en compte le paramètre diachronique [2] : une langue est un ensemble de signifiants liés à des signifiés, mais cet ensemble évolue dans le temps : des mots, des sens tombent en désuétude ; d’autres sont introduits. Sans la gestion de cette caractéristique, les dictionnaires doivent être remaniés régulièrement, ce qui occasionne un travail considérable.
2 Dans ce cadre, l’informatique apporte une perspective nouvelle, pour au moins deux raisons : d’une part, la démocratisation et le développement de la communication linguistique par l’outil informatique ont eu pour conséquence une multiplication exponentielle des corpus linguistiques ; d’autre part, l’informatique apporte des outils de traitement et de gestion de masses de données qui sont incomparablement supérieurs à ceux que peut développer un humain. Il en découle que les sciences du langage peuvent et doivent dorénavant profiter de l’informatique pour conduire leurs recherches et descriptions linguistiques.
3 Dans ce contexte, nous évoquerons les travaux en cours au LDI sur la mise en œuvre d’une plateforme de développement linguistique dans laquelle l’informatique sert d’outil pour réduire ce temps de mise en œuvre et de suivi. Dans ce cadre, le traitement de la néologie est l’un des points névralgiques, car il permet de gérer l’évolution lexicographique des langues.
2. ARCHITECTURE GÉNÉRALE POUR LA DESCRIPTION LINGUISTIQUE DES LANGUES
4 Comme nous l’avons dit précédemment, une architecture de développement linguistique se compose de trois modules, tels que décrits dans la Figure 1.
Architecture générale d’une plateforme de description linguistique
Architecture générale d’une plateforme de description linguistique
5 Le premier module (T1) gère à la fois les nouveaux mots et l’évolution des sens, à partir d’un corpus constitué idéalement de l’ensemble des discours ; il se compose, toujours idéalement, d’un analyseur linguistique (à l’image d’un locuteur compétent), de corpus contenant les mots et les sens nouveaux, et également d’une composante qui trace la vie des mots existants, sur des bases statistiques (voir section 4).
6 Le second module (T2) permet l’identification, à partir d’un corpus étiqueté et de différentes règles, de mots et de sens nouveaux qui passeront par un filtre humain pour entrer dans le dictionnaire des néologismes.
7 Le troisième module (T3) gère spécifiquement les néologismes en suivant leur évolution statistique dans les corpus ; à partir d’un seuil, ces néologismes entrent dans le dictionnaire général ; en dessous de ce seuil, ils sont reversés dans un dictionnaire d’hapax ou de néologismes de faible diffusion parce qu’ils ne sont pas entrés dans l’usage.
8 Le quatrième module (T4) consiste à reverser dans l’analyseur linguistique le dictionnaire vivant construit dans le temps par les deux processus précédents.
9 L’architecture présentée supra, et le modèle linguistique qui lui sert de socle, est un modèle « idéal ». L’architecture logicielle que nous visons à mettre en œuvre consiste à utiliser l’informatique pour aboutir à un modèle opérationnel qui utilise :
- comme corpus le web, qui fournit une image approximative de l’ensemble des discours ; l’idée est d’identifier un échantillon représentatif des discours de la langue générale, puisqu’il s’agit dans le projet actuel de travailler sur les néologismes de la langue générale ; mais le modèle pourrait tout à fait être adapté aux discours spécialisés ;
- comme dictionnaire de la langue générale les données lexicographiques développées au LDI depuis de nombreuses années pour le français, à savoir MORFETIK, pour la partie description morphosyntaxique (Mathieu-Colas 2009), et dicoPRED, dicoARG et dicoACTU pour la partie syntactico-sémantique (Buvet & Grezka 2007, 2009).
- comme analyseur linguistique des corpus un logiciel dénommé TEXTBOX développé par E. Cartier depuis cinq ans et permettant d’effectuer l’analyse morphosyntaxique et, pourvu que l’on dispose des ressources linguistiques, l’analyse syntactico-sémantique.
11 Nous détaillerons tous ces éléments dans ce qui suit.
12 Pour l’analyse des corpus et le repérage des mots et sens nouveaux, nous renvoyons pour le détail des processus mis en œuvre dans cette phase à l’article de F. Issac (2011). Il faut cependant noter que le fonctionnement actuel est double : repérage manuel par les intervenants dans le projet, qui repèrent dans les versions papier de périodiques de la presse généraliste les néologismes, repérage automatique au travers d’une analyse d’un corpus ciblé sur le web.
3. EXPLOITATION DES DONNÉES : NEOLOGIA ET LES ÉLÉMENTS D’UNE PLATEFORME DE VEILLE NÉOLOGIQUE
13 Une fois les néologismes repérés, il reste à les stocker, à les analyser et à suivre leur évolution dans les discours, afin de les intégrer ou non au dictionnaire général. C’est dans cette triple perspective qu’a été élaborée, dès 2007, la base de données NEOLOGIA. Cette base de données prend place dans le système plus vaste de veille néologique et répond notamment à une contrainte forte : l’intégration éventuelle des néologismes décrits dans le dictionnaire général. Nous présenterons, tout d’abord, les fonctionnalités générales de la base de données, puis évoquerons la microstructure associée à chaque terme.
3.1. Fonctionnalités de la base Neologia
14 La base NEOLOGIA est une base informatique de données développée par E. Cartier dès 2007, qui offre un certain nombre de fonctionnalités destinées à remplir :
- les différents champs d’information issus des travaux théoriques et descriptifs élaborés par J.-F. Sablayrolles sur la néologie,
- et les champs d’information linguistique élaborés par les chercheurs du LDI.
16 Elle offre également une interface conviviale dotée des fonctionnalités classiques d’une telle ressource.
17 Cette base de données est accessible via une connexion web sécurisée pour la rendre disponible en tout lieu connecté à Internet et centraliser les données.
3.1.1. Trois niveaux d’utilisateurs
18 Trois niveaux d’utilisateurs ont été définis : administrateur, auteur et invité. Les administrateurs gèrent la structure de la base, ont la possibilité de valider les entrées saisies par les auteurs. Ils disposent également de tous les droits propres aux auteurs : ces derniers peuvent saisir de nouvelles entrées, les modifier et les supprimer ainsi qu’ajouter de nouveaux contextes à l’ensemble des entrées de la base. Un statut invité est enfin prévu pour des collègues extérieurs qui souhaiteraient consulter la base des néologismes validés par les administrateurs.
3.1.2. Interfaces utilisateurs
19 L’interface de NEOLOGIA comporte deux écrans principaux simples et une interface spécifique aux administrateurs :
- création/Édition/Visualisation des fiches : la première interface permet de créer de nouvelles entrées, de modifier les fiches existantes et de visualiser les différentes entrées ;
- interface de recherche et de navigation dans la base de néologismes : la seconde interface permet de lancer des recherches dans la base selon des critères liés à l’ensemble des champs utilisés, et d’accéder aux résultats de cette recherche ; des fonctionnalités de navigation sont également développées ;
- interface administrateur : l’interface administrateur offre à ces derniers des fonctionnalités liées à leur statut : paramétrage des champs (création/suppression/modification des champs, modification des valeurs possibles pour chaque champ) ; paramétrage des utilisateurs de la base (ajout, modification, suppression).
3.1.3. Interface de recherche et de navigation
21 L’interface de recherche se compose de deux zones : une zone supérieure permettant de saisir des critères de recherche, une zone inférieure présentant une vue synthétique des termes répondant aux critères. Les critères « classiques » sont présentés dans la recherche simplifiée, permettant par exemple de filtrer les fiches selon une partie de mot, la catégorie syntaxique, le type de néologisme, le statut ou l’auteur de la fiche, ou une combinaison de ces critères ; une recherche « avancée » est également disponible permettant de combiner l’ensemble des informations qui sont associées à chaque terme. La partie basse présente une vue synoptique de chaque terme avec, sur la gauche, deux boutons permettant de visualiser ou d’éditer la fiche et, pour les administrateurs ou les auteurs, de supprimer des fiches.
Interface de recherche
Interface de recherche
3.1.4. Interface de création/édition/visualisation des fiches
22 L’accès aux fiches se fait en mode création, en mode édition ou en mode visualisation. Ce dernier mode est appliqué automatiquement lorsque l’utilisateur est invité ou n’est pas l’auteur de la fiche ; pour l’administrateur et l’auteur de la fiche, l’accès est en mode édition. Les trois modes présentent une fiche à la disposition identique. Cette fiche est divisée en deux zones : une zone principale, en haut, qui présente les informations génériques liées à l’item et une zone secondaire, sous forme d’onglets, qui permet d’accéder à différentes composantes descriptives. En haut à gauche de la fiche, l’icône loupe permet de revenir à l’interface de recherche et deux boutons d’aide, le premier sur la signification des champs, l’autre sur le fonctionnement de l’interface « fiche », sont disponibles (voir Figure 3).
23 Les entrées sont décrites au moyen d’une trentaine de champs répartis en cinq groupes : entrée et définition, morphosyntaxe, sémantique, néologie, relations sémantiques et contextes présentés sous forme d’onglets (voir Figure 3).
24 Nous renvoyons à E. Cartier et J.-F. Sablayrolles (2008) pour une présentation détaillée des différents champs descriptifs.
Interface création/modification de fiche
Interface création/modification de fiche
4. SUIVI DES NÉOLOGISMES SUR LE WEB
25 Le repérage initial des néologismes, leur enregistrement et leur description linguistique représentent la première étape du processus de suivi des néologismes. Mais il faut ensuite scruter la vie des néologismes dans les discours afin de pouvoir, à un moment ou à un autre, décider soit de leur intégration dans un dictionnaire général, soit de l’absence complète de diffusion, soit d’une vie aux marges de la langue générale. De ce point de vue, il semble difficile d’établir des critères permettant de déterminer l’entrée d’un néologisme dans l’usage. Le travail présenté ici est donc exploratoire.
26 L’idée initiale est de rassembler une série d’indices qui permettront de suivre le cycle de vie des néologismes, l’intégration ou non dans un dictionnaire général ou spécialisé étant un des moments de ce cycle de vie, puisque les méthodes présentées ici valent aussi bien pour toute expression signifiante de la langue. Pour ce faire, nous nous proposons d’utiliser trois méthodes principales :
- la première méthode est purement comptable : pour chaque mot, obtenir à intervalle régulier sa fréquence dans un gros corpus « vivant », d’où l’utilisation des grands moteurs de recherche. Suivre la fréquence d’apparition d’un néologisme au travers de sa fréquence d’apparition dans un certain nombre de corpus sur le web, et notamment via les moteurs de recherche devrait donner une indication sur la tendance générale du terme en question à s’intégrer ou non au vocabulaire. Évidemment, la fréquence absolue obtenue doit être relativisée par rapport à la fréquence des mots du dictionnaire général : ces dernières fréquences vont, en effet, nous donner des points de référence, même s’ils restent à l’heure actuelle difficilement exploitables [3] ;
- la seconde méthode consiste à travailler non plus sur la fréquence d’apparition mais sur les statistiques issues de l’extraction des contextes d’apparition ; les calculs statistiques (Blumenthal 2009) permettent, en effet, d’obtenir le profil combinatoire d’une expression linguistique X selon son environnement lexicographique repéré dans les corpus ; cette méthode est une information importante pour décrire les paramètres d’emploi d’une lexie en exhibant la ou les configurations préférentielles de son environnement linguistique ;
- la troisième méthode est complémentaire de la précédente, mais repose sur une analyse linguistique des contextes extraits ; l’objectif est de permettre une description précise des paramètres syntactico-sémantiques des différents sens des néologismes ; cette analyse permet, en effet, de repérer, pour les néologismes, les schémas syntactico-sémantiques en œuvre dans le sens nouveau apparu ; elle permet, en outre, de suivre les évolutions de sens via l’émergence de schémas syntactico-sémantiques nouveaux ; cette analyse doit, en outre, déboucher sur un outil permettant de repérer les néologismes de sens.
4.1. Suivi des fréquences des néologismes sur le web
4.1.1. Méthode suivie
28 Nous avons donc mis au point un programme qui permet d’interroger le nombre de résultats issus d’une requête sur les néologismes dans trois « grands » moteurs de recherche (Google, Yahoo, Exalead) [4]. L’interrogation est lancée actuellement une fois par semaine au moyen de la « recherche avancée » mise à disposition dans ces trois moteurs. Les résultats sont stockés dans une table, et il est dorénavant possible de connaître l’évolution fréquentielle de chaque terme dans chaque moteur de recherche. Les requêtes qui sont posées pour chaque néologisme portent d’une part sur les documents identifiés comme étant de langue française, d’autre part sur les sites du domaine francophone. Les résultats sont également limités aux derniers ajouts, via un filtre permettant de n’afficher que les nouveaux documents depuis la dernière requête.
4.1.2. Premiers résultats
29 Il est aujourd’hui possible de présenter un certain nombre de résultats de cette expérimentation, puisque les premières statistiques ont débuté il y a maintenant environ six mois.
30 Une première indication montre que les néologismes suivent la courbe de Zipf-Mendelbrot, c’est-à-dire que nous avons un très petit nombre de néologismes qui ont une très grande fréquence (5 % des néologismes constituent 95 % des fréquences) et une très grande masse de néologismes qui ont une très faible fréquence (95 % des néologismes constituent 5 % des fréquences).
31 Sur les 1 500 néologismes actuellement dans la base, on rencontre deux grand modèles de courbes de fréquence :
- une courbe d’expansion, puis stagnation : le néologisme s’est, à un moment donné, répandu, puis semble s’être installé ; dans ce cas, la courbe présente tout d’abord une forte expansion (un pic) puis redescend pour rester à un niveau comparable à ce que l’on rencontre pour les mots intégrés du dictionnaire général ; cela ne concerne qu’une très faible part de la base ; le terme alcolock, apparu lors des débuts de la commercialisation de l’« éthylotest antidémarrage » (néologisme concurrent, voir plus loin), a connu un pic lors de cette émergence et s’est stabilisé ensuite dans des niveaux de fréquence moyens, avec de nouvelles apparitions régulières (voir tableau infra) ;
- une courbe de disparition : le plus grand nombre de néologismes disparaissent quasi immédiatement après leur apparition initiale, lié à un phénomène particulier ou une mode, et ne sont pas reparus depuis ; par exemple, ado-araignée, apparu lors de la sortie du film Spiderman 3 en 2007, a connu un développement rapide pendant environ six mois, puis tend dorénavant à disparaître complètement.
33 Voici par exemple les courbes de fréquence du terme alcolock (limité aux pages en langue française) :
Fréquence d’emploi du terme alcolock
Yahoo | Exalead | ||
Fréquence totale (au 20/01/2011) | 4 710 | 18 100 | 4 821 |
Fréquence pages < 1 an | 663 | 9 876 | 243 |
Fréquence pages < 6 mois | Non disponible | 5 543 | 35 |
Fréquences pages < 1 mois | 239 | 1 210 | 2 |
Fréquence d’emploi du terme alcolock
34 On constate facilement que le pic se situe bien avant cette année (en réalité en 2007) ; puis la fréquence s’est stabilisée. Il est à noter, par ailleurs, concernant ce terme qu’il est depuis environ un an en concurrence avec une version franciséeéthylotest antidémarrage, qui suit une courbe très similaire (avec une fréquence inférieure de 2/3).
35 Les résultats actuels ne couvrent encore qu’une trop courte période temporelle, car la vie d’un vocabulaire doit être étudiée sur des périodes bien plus longues. Quelques éléments méritent tout de même qu’on s’y attarde :
- divergences de résultats entre les différents moteurs de recherche : si on prend le néologisme relissage, on se rend compte qu’aucun moteur de recherche ne donne de résultats identiques ou similaires en termes de fréquence : 4 718 (Exalead), 17 100 (Google), 36 100 (Yahoo), 5 550 (Bing), 36 100 (Altavista), 129 (Ask), 5 350 (Alltheweb), 1 995 (Voilà). Ces différences s’expliquent aisément, puisque les moteurs de recherche n’indexent pas le même nombre de documents ; cela conduit à imaginer un affinement de la technique initiale pour tenter de repérer, au travers des moteurs de recherche, les sources des fréquences, afin de déterminer effectivement les sources d’emploi et d’obtenir une fréquence globale, fiable et vérifiable ;
- qualité et validité des pages à la source [5] : parmi les pages utilisées par les moteurs de recherche, un certain nombre sont des pages dupliquées sur des sites différents, aux fins de faire remonter dans les résultats les pages en question. Cette technique de référencement (spam-indexing) génère évidemment du bruit dans nos résultats, et nous tentons actuellement, en complément du premier point ci-dessus, de travailler au plus proche des pages-sources pour éliminer ces pages ;
- mots ambigus : il arrive que des néologismes soient des homonymes de termes déjà installés dans l’usage ; c’est par exemple le cas de crooner (nom) et de crooner (verbe, néologisme) ; dans ces cas, malheureusement, en dehors d’une désambiguïsation par analyse linguistique des textes, il n’est pas possible d’exploiter les résultats ; il en est de même lorsqu’un nom commun acquiert également le statut de nom propre (le cas de l’alcolock cité supra), ce qui nécessiterait lors des relevés de fréquence la prise en compte des différents sens ;
- détermination du seuil d’entrée dans la langue : il n’est pas évident de déterminer le seuil de fréquence au-delà duquel un néologisme peut être dit entré dans l’usage. En effet, la loi de Zipf établit que la fréquence du vocabulaire d’une langue est inégalement répartie, puisque 95 % en moyenne des mots sont très faiblement fréquents et pourtant sont dans l’usage ; le relevé de l’évolution de la fréquence d’utilisation des mots est donc un indice très intéressant, car il permet de savoir quels mots disparaissent et quels mots restent ; ce serait alors la courbe d’évolution qui nous renseignerait.
4.1.3. Conclusion sur cette première approche
37 L’approche purement fréquentielle permet de repérer les néologismes hapax, car un mot qui disparaît de l’usage est, sans doute, un néologisme qui a fait long feu. Mais, même si ce principe vaut sans doute pour les néologismes « spécialisés », pour autant que le procédé ou la technique désigné s’installe dans l’usage, il reste que la fréquence n’est pas un critère suffisant, car il existe de très nombreux mots de la langue générale qui ont une fréquence nulle et qui, pourtant, restent disponibles dans la langue générale : gamelle, par exemple, au sens d’élément de cuisine réceptacle d’aliments comestibles, est bien un élément constitutif de la langue, mais sa fréquence est aujourd’hui nulle dans les textes pris sur Internet.
38 La fréquence, en outre, est un critère clairement insuffisant pour décider de la destinée d’un mot nouveau, car le principe de la loi de Zipf-Mendelbrot établit que la fréquence d’un vocabulaire est inégalement répartie entre les mots (voir supra). Une première solution pour dépasser ce problème consiste à mettre en regard les fréquences des néologismes et les fréquences des mots du vocabulaire général, et de quantifier les différences ; une seconde solution, plus aisée à mettre en œuvre, consiste à prendre en compte essentiellement l’évolution de la fréquence, et non pas la fréquence elle-même : il est évident qu’un terme dont la fréquence, même faible, reste stable dans le temps, est selon toute vraisemblance entré dans l’usage : le cas le plus flagrant concerne alcolock, car ce terme stagne à une fréquence de nouvelles apparitions d’environ 10 par mois ; mais cette fréquence est stable depuis plus de trois ans. Enfin, des calculs statistiques spécifiques (notamment le TF/IDF) permettent d’« effacer » l’effet Zipf-Mendelbrot en relativisant la fréquence [6].
4.2. Suivi du profil combinatoire des néologismes sur le web
39 Le profil combinatoire obtenu par des moyens statistiques permet de dresser un portrait des environnements combinatoires des mots, comme l’ont démontré de nombreuses études (Lebart & Salem 1994 ; Manning & Schütze 1999). Le même travail peut être mené avec les néologismes, ce qui permettrait de suivre le cycle de vie des mots depuis leur apparition. Prenons l’exemple de débat (Blumenthal 2009). Il établit, sur un corpus journalistique, la fréquence relative (log-likelihood en l’occurrence) des collocatifs de ce terme, sur une fenêtre de cinq mots ; cette statistique donne des résultats étonnants : en premières positions, on trouve dans l’ordre décroissant : sur (G [7]), public (G), budgétaire (G), relancer (D), politique (G), orientation (D), à (G), cœur (D), démocratique (G), dans (D), à (D), animer (D), etc. La liste des collocatifs constitue selon P. Blumenthal une bonne approximation du profil combinatoire d’un mot et, moyennant la prise en compte du maximum de discours-sources et de la composante diachronique, permet de dresser à l’instant t un portrait combinatoire assez fidèle. L’évolution du profil serait un indicateur d’évolutions de sens.
4.3. Suivi du/des profil(s) syntactico-sémantique(s) des néologismes sur le web
40 Le profil combinatoire établi par des moyens statistiques est un profil aveugle, car il ne permet pas de catégoriser les collocations au moyen de propriétés linguistiques. Ce profil va, par là même, repérer indifféremment des collocations qui ressortiront à des phénomènes linguistiques diversifiés, qu’il s’agisse de séquences figées ou semi-figées (débat public, démocratique..., cœur du débat), de moules syntaxiques (débat sur, (re)lancer/animer le débat...) ou encore de simples appropriations (débat passionné, fictif, tronqué).
41 L’affinement des résultats statistiques par des moyens linguistiques semble donc indispensable et complémentaire : pour ce faire, nous avons utilisé TEXTBOX (Cartier 2007), qui permet, d’une part, de repérer des schémas syntactico-sémantiques, des séquences figées et semi-figées ainsi que des séquences appropriées par le biais d’une description linguistique préalable et, d’autre part, de repérer de nouvelles séquences non couvertes par les descriptions précédentes ; il est donc possible d’imaginer un processus de travail itératif permettant à un linguiste, dans le temps, de suivre la combinatoire d’une séquence signifiante, pour corriger et mettre à jour ses descriptions linguistiques. Cette approche porte d’ailleurs non seulement sur les néologismes, mais également sur tous les sens répertoriés par un dictionnaire de langue générale. Soit le terme alcolock : au départ, il a désigné un procédé de blocage du démarreur des voitures par vérification du taux d’alcoolémie du conducteur. Parmi les discours produits, nous avions : Il vous permet de faire fonctionner l’Alcolock exactement comme vous le feriez à bord d’un... / L’utilisation de l’alcolock est déjà généralisée dans certains pays..., qui correspondent aux schémas syntaxiques classiques des noms désignant des procédés techniques, notamment une appropriation verbale spécifique. Par la suite, apparaissent de nouveaux discours, tels que La société Alcolock commercialise son procédé sur les modèles Nissan... / Alcolock écrase ses concurrents en signant un partenariat commercial avec Volkswagen... / Partenaire depuis 2008, ALCOLOCK France, filiale du Canadien ACS, est un des leaders dans la fabrication d’équipements de détection... Clairement, ces nouveaux contextes ne peuvent pas être rattachés aux schémas précédents, puisqu’ils répondent aux propriétés d’appropriation des organisations et des personnes (que leur sens infère). On constate donc que cette approche permettrait de suivre très précisément l’évolution des sens, qu’il s’agisse de repérer et profiler les nouveaux termes ou de suivre le profil des sens existants ; nous avons ainsi les moyens de repérer non plus seulement les néologismes de mots, mais également les néologismes de sens.
5. CONCLUSION
42 Une base de données de néologismes, au sens informatique, mais également dans un sens théorique, doit être replacée dans une architecture qui rende compte de toutes les étapes de la vie des éléments lexicaux d’une langue :
- récupération automatique et/ou manuelle des néologismes ;
- saisie et structuration de l’information attachée à chaque néologisme ;
- observation de la « vie » des néologismes, mais également de la vie du vocabulaire en usage ;
- transfert des néologismes passés dans l’usage dans une base de données lexicographiques générale.
44 Nous avons présenté cette architecture et commencé à la rendre opérationnelle ; il ressort que l’informatique est désormais un outil incontournable pour l’étude de la vie du lexique car des outils et des ressources existent pour suivre la vie du vocabulaire dans des discours-corpus numériques : repérage des néologismes dans les corpus, enregistrement des premières occurrences, suivi, via différents outils statistiques sur le web, de l’utilisation des mots. De la sorte, nous appliquons un modèle permettant de gérer le dynamisme de la nomenclature linguistique.
45 Notre étude a présenté plus en détail les deux dernières composantes de ce système : base de données de stockage, outillage de suivi de la vie des mots. Cette dernière partie, encore partiellement développée, est en cours d’implémentation. Nous espérons pouvoir prochainement offrir aux chercheurs une plateforme de suivi de la vie du vocabulaire dont les néologismes seraient partie intégrante.
Références
- BARONI M. & MOTOKO U. (2006), Building general- and special-purpose corpora by Web crawling, Proceedings of the 13th NIJL International Symposium, Language Corpora : Their Compilation and Application, Tokyo : Japan Tokuteicorpus, 31-40.
- BLUMENTHAL P. (2008), « Histoires de mots : affinités(s) électives », in J. Durand, B. Habert & B. Laks (éds), Congrès Mondial de Linguistique Française – CMLF’08, Paris : Institut de Linguistique Française, 31-46.
- BLUMENTHAL P. (2009), « Éléments d’une théorie de la combinatoire des noms », Cahiers de lexicologie 94, 11-29.
- BUVET P.-A. & GREZKA A. (2007), « Élaboration d’outils méthodologiques pour décrire les prédicats du français », Lingvisticae Investigationes 30 (2), 217-245.
- BUVET P.-A. & GREZKA A. (2009), « Les dictionnaires électroniques du modèle des classes d’objets », Langages 176, 63-79.
- CARTIER E. (2007), “TextBox, a Written Corpus Tool for Linguistic Analysis”, in C. Fairon et al. (eds), Building and Exploring Web Corpora (WAC3 – 007), Cahiers du CENTAL 4, Louvain-la-Neuve : Presses Universitaires de Louvain, 33-42.
- CARTIER E. (2009), “Corpus for linguistic resources building and maintenance (CLRBM) : system architecture and first experiments”, 5th Corpus Linguistics 2009 (20-23 juillet 2009), Liverpool (Grande-Bretagne).
- CARTIER E. (2011), « Utilisation des contextes dans le cadre dictionnairique : état des lieux, typologie des contextes, exemple des contextes définitoires », Journées scientifiques LTT (octobre 2009), Lisbonne (Portugal).
- CARTIER E. & SABLAYROLLES J.-F. (2008), « Néologismes, dictionnaires et informatique », Cahiers de Lexicologie 93, 175-192.
- CARTIER E. & SABLAYROLLES J.-F. (2011), « Une base de données pour la néologie : problématiques et solutions », Table ronde de la journée de l’ASL (5 décembre 2009), Paris (France).
- COLSON J.-P. (2010a), “The Contribution of Web-based Corpus Linguistics to a Global Theory of Phraseology”, in S. Ptashnyk, E. Hallsteindóttir & N. Bubenhofer (eds), Corpora, Web and Databases. Computer-Based Methods in Modern Phraselogy and Lexicography, Hohengehren : Schneider Verlag, 23-35.
- COLSON J.-P. (2010b), “Automatic extraction of collocations : a new Web-based method”, in S. Bolasco, I. Chiari & L. Giuliano (eds), Proceedings of JADT 2010 – Statistical Analysis of Textual Data, Milan : LED Edizioni, 397-408.
- DE LOUPY C. (2003), L’apport de connaissances linguistiques en recherche documentaire, Dossier réalisé pour l’ADAE (Agence pour le Développement de l’Administration Électronique).
- GREZKA A. & MARTIN-BERTHET F. (éds) (2007), Verbum n°29 : Verbes et classes sémantiques, Nancy : Presses Universitaires de Nancy.
- GROSS G. (1994), « Classes d’objets et description des verbes », Langages 115, 15-30.
- ISSAC F. (2011), « Cybernéologisme : Quelques outils informatiques pour l’identification et le traitement des néologismes sur le web », Langages 183, Paris : Armand Colin (ce numéro).
- JACQUET-PFAU C., HUMBLEY J. & SABLAYROLLES J.-F. (2011), « Emprunts, créations ‘sous influence’ et équivalents », Actes des 8e Journées scientifiques du réseau LTT de l’AUF, Passeurs de mots, passeurs d’espoir : lexicologie, terminologie et traduction face au défi de la diversité, 325-339.
- KILGARRIFF A. (2007), “Googleology is Bad Science”, Computational Linguistics 33 (1), 147-151.
- LEBART L. & SALEM A. (1994), Statistique Textuelle, Paris : Dunod.
- MANNING C. & SCHÜTZE H. (1999), Foundations of Statistical Natural Language Processing, Cambridge (MA) : MIT Press.
- MATHIEU-COLAS M. (1996-2006), Dictionnaire morphologique du français. I. Formes simples, Rapport technique du LLI, Villetaneuse, Université de Paris 13.
- MATHIEU-COLAS M. (2007), « Domaines et classes sémantiques », Verbum 29, 11-24.
- MATHIEU-COLAS M. (2009), « Morfetik : une ressource lexicale pour le TAL », Cahiers de lexicologie 94, 137-146.
- NAKOV P. & HEARST M. (2005), “A Study of Using Search Engine Page Hits as a Proxy for n-gram Frequencies”, RANLP’05, Borovets, Bulgaria.
- PRUVOST J. & SABLAYROLLES J.-F. (2003), Les néologismes, Paris : Presses Universitaires de France.
- REY A. (1976), « Néologisme, un pseudo concept ? », Cahiers de lexicologie 28, 3-17.
- SABLAYROLLES J.-F. (2000), La néologie en français contemporain. Examen du concept et analyse de productions néologiques récentes, Paris : Champion.
- SABLAYROLLES J.-F. (2002), « Fondements théoriques des difficultés pratiques du traitement des néologismes », Revue française de linguistique appliquée VII (1), 97-111.
Mots-clés éditeurs : corpus, lexicographie, base de données, métalexicographie, néologie, TALN, dictionnaireélectronique
Date de mise en ligne : 25/02/2012
https://doi.org/10.3917/lang.183.0105Notes
-
[1]
Sans doute parce que, à ce jour, aucune description linguistique n’a démontré sa supériorité dans l’analyse des discours, et les systèmes statistiques sont toujours prédominants ; mais les corpus de référence, en plein essor, servant de corpus d’apprentissage des structures linguistiques, sont utilisés dans les systèmes d’apprentissage qui aboutissent à des traitements statistiques des discours (cf. de Loupy 2003).
-
[2]
Nous n’évoquerons pas ici le paramètre synchronique et la prise en compte de l’opposition langue générale/langue spécialisée, ni la diversité et la perméabilité des langues spécialisées, pourtant également incontournables.
-
[3]
On rappelle, avec Colson (2010), que la fréquence des mots d’une langue obéit à la loi de Zipf-Mandelbrot, qui définit le vocabulaire d’une langue comme porteurs de trois groupes de mots : les mots extrêmement fréquents, en nombre très restreint, les mots moins fréquents et la plus grande masse des mots ayant une fréquence extrêmement faible ; toute interprétation de calcul basé sur la fréquence doit garder ce principe en tête, car la fréquence absolue n’est pas un critère d’appartenance ou non au vocabulaire d’une langue.
-
[4]
Le choix de ces moteurs s’est basé principalement sur trois critères : volume du corpus, accessibilité aux requêtes automatisées, potentiel d’interrogation.
-
[5]
Sur ce point et le suivant voir le § 1.3.1 de Jacquet-Pfau et al. (2011).
-
[6]
Nous renvoyons aux ouvrages fondateurs sur les statistiques lexicales (Lebart & Salem 1994 ; Manning & Schütze 1999).
-
[7]
(G) et (D) renvoient respectivement à ‘mot qui se trouve dans le contexte gauche’ et ‘mot qui se trouve dans le contexte droit’.