Accès mesurés aux sens

Pierre Zweigenbaum; Benoît Habert

doi:10.4000/mots.4673

Mots. Les langages du politique 2004/2 n° 74

Article de revue

Accès mesurés aux sens

Par Pierre Zweigenbaum
et Benoît Habert

Page 7

ZWEIGENBAUM, Pierre
et HABERT, Benoît,

2004. Accès mesurés aux sens. Mots. Les langages du politique, 2004/2 n° 74, p.7-7. DOI : 10.4000/mots.4673. URL : https://shs.cairn.info/revue-mots-2004-2-page-7?lang=fr.

Zweigenbaum, Pierre.
et al.

« Accès mesurés aux sens ». Mots. Les langages du politique, 2004/2 n° 74, 2004. p.7-7. CAIRN.INFO, shs.cairn.info/revue-mots-2004-2-page-7?lang=fr.

Zweigenbaum, P.
et Habert, B.

(2004). Accès mesurés aux sens. Mots. Les langages du politique, 74(2), 7-7. https://doi.org/10.4000/mots.4673.

https://doi.org/10.4000/mots.4673

Notes

[1]
Nous mettons en italiques la terminologie du domaine, ou celle qu’il nous semble judicieux d’employer, et entre guillemets les notions courantes auxquelles il faut donner un sens plus précis, opératoire.
[2]
Le bruit est la proportion de documents non pertinents sur l’ensemble des documents rapportés par le moteur de recherche et le silence la proportion de documents pertinents non rapportés. Le complémentaire du bruit est le rappel et celui du silence la précision.
[3]
Le nombre de pages Web accessibles via la Toile avoisine le milliard. Ces pages vont de quelques mots à des dizaines de milliers, mélangent les langues et, inégalement relues, fourmillent de scories. Nous n’aborderons pas ici les méthodes de détermination de la langue d’un énoncé ou d’un document ; voir par exemple Grefenstette, Nioche (2000).
[4]
Nous n’aborderons pas d’autres apports à l’accès automatique au sens : l’écrèmage dit résumé automatique, mise en évidence des relations de coréférence, recherche dans les documents de fragments qui apportent une réponse précise à une question factuelle, etc.
[5]
Pour une analyse plus fine (inspirée par les travaux de Rastier), on se reportera à Pincemin (1999).
[6]
Lexico3 (Lamalle et autres, 2003) permet par exemple de choisir ce statut au début du traitement d’un corpus.
[7]
Ce que font les dictionnaires de mots composés du LADL et l’outil de projection et de découverte qu’est Intex (Silberztein, 1993).
[8]
La cohérence ne règne pas forcément. Ainsi l’étiqueteur Cordial (http://www.synapse-fr.com) considère-t-il comme des mots en plusieurs mots à la fois droits de l’homme, personnes âgées et… situation économique, mode d’organisation, ce qui renvoie à la couverture et à l’incohérence des dictionnaires papier ou électroniques qui ont été intégrés.
[9]
C’est le cas d’Alceste (Reinert, 1996).
[10]
Les barres verticales notent la cardinalité d’un ensemble.
[11]
La distance est l’inverse de la similarité : un mot est d’autant plus proche d’un autre que la similarité entre eux est grande.
[12]
Leur taille peut varier de la phrase au document en passant par le paragraphe.
[13]
Voir Losee (1998, p. 43-62), pour une comparaison raisonnée d’indices courants.
[14]
Voir Beauvisage, Assadi (2002) sur les catégories des annuaires du Web.
[15]
Voir l’expérience comparative de Grefenstette (1996) entre les contextes de mots pleins étiquetés dans une fenêtre étroite et les dépendances syntaxiques fines fournies par l’analyseur syntaxique robuste Sextant (Grefenstette, 1994).
[16]
Voire même plus rapides malgré l’augmentation de la taille des données, car de complexité informatique moindre.
[17]
Voir a contrario Ploux, Victorri (1998)

Citer cet article

Zweigenbaum, P.
et Habert, B.

(2004). Accès mesurés aux sens. Mots. Les langages du politique, 74(2), 7-7. https://doi.org/10.4000/mots.4673.

Zweigenbaum, Pierre.
et al.

« Accès mesurés aux sens ». Mots. Les langages du politique, 2004/2 n° 74, 2004. p.7-7. CAIRN.INFO, shs.cairn.info/revue-mots-2004-2-page-7?lang=fr.

ZWEIGENBAUM, Pierre
et HABERT, Benoît,

2004. Accès mesurés aux sens. Mots. Les langages du politique, 2004/2 n° 74, p.7-7. DOI : 10.4000/mots.4673. URL : https://shs.cairn.info/revue-mots-2004-2-page-7?lang=fr.

https://doi.org/10.4000/mots.4673

Notes

[1]
Nous mettons en italiques la terminologie du domaine, ou celle qu’il nous semble judicieux d’employer, et entre guillemets les notions courantes auxquelles il faut donner un sens plus précis, opératoire.
[2]
Le bruit est la proportion de documents non pertinents sur l’ensemble des documents rapportés par le moteur de recherche et le silence la proportion de documents pertinents non rapportés. Le complémentaire du bruit est le rappel et celui du silence la précision.
[3]
Le nombre de pages Web accessibles via la Toile avoisine le milliard. Ces pages vont de quelques mots à des dizaines de milliers, mélangent les langues et, inégalement relues, fourmillent de scories. Nous n’aborderons pas ici les méthodes de détermination de la langue d’un énoncé ou d’un document ; voir par exemple Grefenstette, Nioche (2000).
[4]
Nous n’aborderons pas d’autres apports à l’accès automatique au sens : l’écrèmage dit résumé automatique, mise en évidence des relations de coréférence, recherche dans les documents de fragments qui apportent une réponse précise à une question factuelle, etc.
[5]
Pour une analyse plus fine (inspirée par les travaux de Rastier), on se reportera à Pincemin (1999).
[6]
Lexico3 (Lamalle et autres, 2003) permet par exemple de choisir ce statut au début du traitement d’un corpus.
[7]
Ce que font les dictionnaires de mots composés du LADL et l’outil de projection et de découverte qu’est Intex (Silberztein, 1993).
[8]
La cohérence ne règne pas forcément. Ainsi l’étiqueteur Cordial (http://www.synapse-fr.com) considère-t-il comme des mots en plusieurs mots à la fois droits de l’homme, personnes âgées et… situation économique, mode d’organisation, ce qui renvoie à la couverture et à l’incohérence des dictionnaires papier ou électroniques qui ont été intégrés.
[9]
C’est le cas d’Alceste (Reinert, 1996).
[10]
Les barres verticales notent la cardinalité d’un ensemble.
[11]
La distance est l’inverse de la similarité : un mot est d’autant plus proche d’un autre que la similarité entre eux est grande.
[12]
Leur taille peut varier de la phrase au document en passant par le paragraphe.
[13]
Voir Losee (1998, p. 43-62), pour une comparaison raisonnée d’indices courants.
[14]
Voir Beauvisage, Assadi (2002) sur les catégories des annuaires du Web.
[15]
Voir l’expérience comparative de Grefenstette (1996) entre les contextes de mots pleins étiquetés dans une fenêtre étroite et les dépendances syntaxiques fines fournies par l’analyseur syntaxique robuste Sextant (Grefenstette, 1994).
[16]
Voire même plus rapides malgré l’augmentation de la taille des données, car de complexité informatique moindre.
[17]
Voir a contrario Ploux, Victorri (1998)

English

Français

On rencontre un besoin croissant d’accès sémantique robuste à des données textuelles volumineuses et hétérogènes. Nous présentons ici en trois grands types les méthodes qui aident à obtenir cet accès, et qui s’appliquent aux mots comme aux textes : découper en unités porteuses de sens, partitionner pour obtenir des catégories thématiques ou sémantiques, et répartir dans des classes prédéfinies.

analyse sémantique automatique
sémantique quantitative

Mots-clés éditeurs : analyse sémantique automatique, sémantique quantitative

English

There is a growing need for robust semantic access to large, heterogeneous textual data. We present here under three categories the methods which help to achieve such an access, and which apply both to words and to texts : segmenting into meaning-bearing units, partitioning to obtain thematic or semantic categories, and distributing into predefined classes.

quantitative automatic semantics
semantic analysis

Mots-clés éditeurs : quantitative automatic semantics, semantic analysis

Español

Se necesita cada vez más un ecceso semántico a datos textuales voluminosos y heterogéneos que sea robusto. Presentamos aquí tres grandes tipos de métodos que favorecen la obtención a este acceso y que se aplican tanto a los textos como a las palabras : recortar en unidades que transportan el sentido, particionar para obtener categorías temáticas o semánticas, y distribuir por clases predefinidas.

semántica automática cuantitativa
análysis semántico

Mots-clés éditeurs : análysis semántico, semántica automática cuantitativa

Date de mise en ligne : 01/02/2009

https://doi.org/10.4000/mots.4673

Cet article est en accès conditionnel

Membre d'une institution cliente ?

Compte personnel

Accès mesurés aux sens

Notes

Citer cet article

Notes

Cet article est en accès conditionnel

Accès institutions

Toutes les institutions