Notes
-
[1]
Nous utilisons l’expression « logico-mathématique » par opposition à une approche « logico-pragmatique », cf. J. Dewey (1938).
-
[2]
Nous avions fait un choix différent dans notre article sur les « Appareils de capture sémantique » (Zacklad, 2010).
-
[3]
« Les figements sont souvent classés parmi les idiomatismes. Mais comme le montre l’épreuve de la traduction, tout est idiomatique dans une langue (…) Le problème de la traduction montre cela clairement. Il est des cas où Rocard monte au créneau se traduit par la transposition Felipe Gonzalez sube al arena [descend dans l’arène]. La notion de figement peut être entendue de deux manières. Au niveau morphosyntaxique, on considère comme figée une séquence de morphèmes qui ne permet pas d’intercalation. Au niveau sémantique, les mots qui constituent une lexie complexe n’ont pas d’autonomie contextuelle, si bien que le parcours interprétatif attribue un sens à la lexie, mais non à ses composants. », in Rastier 1997, Martins-Baltar, M. (éd.), La locution, entre langues et usages, coll. Signes, ENS Éditions Fontenay/Saint Cloud, diff. Ophrys, Paris, 1997, pp. 305-329.
-
[4]
Dans Zacklad 2010a, nous rappelons que certains procédés d’écriture automatique utilisent directement des capteurs qui mesurent certaines caractéristiques physiques des situations.
-
[5]
Nous employons ici le terme de lexicalisation pour décrire un procédé visant à investir une expression pour lui conférer un statut de lexème dans un lexique (ou vocabulaire) dédié à la gestion de l’information, c’est-à-dire essentiellement à l’annotation documentaire ou indexation et à la recherche des documents indexés (mais un système de classification repose aussi sur un lexique). La lexicalisation peut porter sur un terme simple ou sur une expression qui aura été figée. Ce statut de lexème signifie que les variations, notamment orthographiques, subies par le terme renvoient à une forme canonique conventionnelle sans présumer du degré d’investissement définitionnel (Zacklad, 2005) dont le lexème fait l’objet. Dans le cas des ontologies sémiotiques, par exemple, l’investissement définitionnel est fort. Il est beaucoup plus faible dans les folksonomies ou dans les vocabulaires dédiés à la gestion de listes de signets. Nous emploierons indifféremment l’expression de « terme d’un SOC » ou de « lexème d’un SOC ».
-
[6]
Près d’une quinzaine d’applications dans différents domaines ont été réalisées à ce jour, mais davantage dans un contexte intranet qu’internet (Zacklad & al., 2007).
-
[7]
Dans une base documentaire décrivant des projets de recherche & développement, les projets sont considérés comme des items caractérisés par des ressources documentaires (des fichiers), des attributs standards (dates, participants…) et des attributs heuristiques, c’est-à-dire des cartes de thèmes représentants les ontologies sémiotiques.
-
[8]
Pierce est également un inspirateur important pour certain d’entre nous (Cahier, 2005).
-
[9]
Moins présent à notre connaissance chez Rastier.
-
[10]
Méthodes et services intégrés institutionnels et participatifs pour la classification à facettes des contenus documentaires complexes (ANR Miipa-Doc n°2008 CORD 014 03).
-
[11]
Notre utilisation de la notion de source de la description diffère quelque peu de celle qui est fait en histoire ou dans le domaine de la veille quand on distingue les sources primaires des sources secondaires. En effet, dans ces disciplines, les sources primaires sont des documents « originaux » qui n’ont pas été retravaillés par le chercheur : courrier, archive, etc. (Wikipédia 2010). Dans notre acception du terme, une description primaire correspond à une description qui est effectuée à partir de l’expérience directe d’une situation par le biais d’observations, d’entretiens, d’analyses, etc. Un SOC a une source primaire quand ses termes font référence aux caractéristiques d’une situation extradocumentaire : attributs d’une personne ou d’un objet, attitude, nom de l’auteur d’une œuvre, etc. Il a une source secondaire quand il décrit le contenu d’un document.
-
[12]
Repérage automatique d’un titre ou d’un nom d’auteur, par exemple.
-
[13]
Au sens logico-mathématique.
-
[14]
Il n’est pas sûr, par exemple, que toutes les classifications du vivant rentrent facilement dans cette catégorie.
-
[15]
Dans Zacklad (2005) nous opposons aux concepts référentiels, les concepts sémiotiques associés à la signification rhétorico-herméneutique.
-
[16]
Bien que certains auteurs parlent d’ontologie de tâche.
-
[17]
Cf. Desfriches-Doria et Zacklad 2010a.
Introduction
1La problématique de l’usage et de la conception de systèmes d’organisation des connaissances (SOC) adapté à la gestion de l’information documentaire numérisée qui ne concernait jusqu’alors qu’un petit nombre de spécialistes tend à devenir un enjeu majeur de la gestion de l’information numérique. Comme nous l’évoquions récemment les langages et les index qui organisent l’information, sont devenus des technologies intégrées aux dispositifs de stockage et aux usages de recherche de l’information conditionnant de manière déterminante les modalités d’accès à celle-ci dans les contextes professionnel et de loisir (Zackad 2010). Depuis les environnements bureautiques (fichiers office propriétaires ou open source, photo, vidéo, musique…) jusqu’à l’environnement du web de plus en plus pervasif, les SOC font une entrée remarquable à travers l’utilisation de plus en plus systématique et délibérée des métadonnées. Malheureusement, ces SOC et les dispositifs dans lesquels ils sont intégrés sont si divers qu’il est aujourd’hui difficile de bien comprendre leurs propriétés et leur complémentarité.
2Dans cet article nous tentons de remédier à cette difficulté en présentant des critères d’analyse et de comparaison des SOC qui constituent de nouveaux développements de notre présentation effectuée lors du congrès ACSI-CAIS de 2007 (Zacklad 2007). En particulier, nous proposons de nouveaux éléments de définition des SOC en élargissant cette notion au domaine des index de moteurs de recherche, les SOC automatiques. Après un rappel des six grandes familles de SOC qui nous semblent représentatives des évolutions actuelles, nous présentons cinq critères de comparaison des SOC qui constituent également une grille d’analyse de la sémantique de ces langages, le terme de sémantique étant entendu ici dans son acception linguistique élargie, par opposition au sens logico-mathématique [1] : l’instance énonciative responsable du SOC, la source de la description (contenu documentaire ou situation externe), le type et le degré de formalisation (formalité sémiotique ou logico-mathématique), le niveau de signification des termes du SOC par rapport aux éléments qu’ils décrivent (référentiel ou rhétorico-herméneutique), les principes d’association entre les termes du SOC (typée et référentielle, heuristique, statistique).
SOC manuels & automatiques
3À la suite de Hodge (2000), nous utilisons le terme de système d’organisation des connaissances (SOC) pour regrouper dans une dénomination unique aussi bien les langages documentaires, les schémas de classification que les langages de représentation des connaissances issus de l’intelligence artificielle. Dans ce texte, nous y ajoutons également les index de moteurs de recherche que nous considérons comme des SOC automatiques [2]. Ainsi, les SOC relèvent d’une forme d’écriture codifiée (Zacklad 2010) qui peut être manuelle ou automatique. Quand elle est manuelle, elle s’appuie sur l’utilisation d’un lexique constitué de termes simples ou composés que l’on peut assimiler à des idiomatismes [3] propres à un environnement de gestion de l’information donné. Quand elle est automatique, elle s’appuie sur des algorithmes informatiques de fouille de texte (ou d’autres types de ressources numériques) [4].
4Dans les deux cas, les SOC sont des ensembles de termes codifiés constituant un lexique disposant ou non de règles d’association explicites et permettant de faciliter les opérations de gestion portant sur des contenus documentaires ou sur les caractéristiques de situations non préalablement documentées (modèle documentaire ou modèle de situation). La création d’un SOC implique donc un processus de codification qui diffère radicalement selon son caractère manuel ou automatique. Dans le cas de la codification manuelle, on pourra établir une distinction entre les codes numériques (basés sur des nombres) et les autres. Dans le cas des codes non numériques, qui retiennent plus particulièrement notre intérêt, la création manuelle du code correspond à la lexicalisation [5] de termes, le plus souvent dans le contexte d’une langue de spécialité.
5Dans de cas d’une codification automatique, la construction de l’index obéit à des règles calculatoires variées pour permettre d’aboutir à une liste de termes pertinents, telles que des règles statistiques faisant intervenir la probabilité d’occurrence du terme dans le corpus considéré. Si les réponses du moteur sont souvent pertinentes, le vocabulaire utilisé dans l’index n’est généralement pas directement lisible et/ou interprétable. Nous parlons de codification opaque pour décrire ce processus efficace mais basé sur des intermédiaires techniques qui fournissent des résultats qui ne sont pas toujours directement interprétables par les usagers.
6Les associations entre les termes du SOC sont plus ou moins contraintes et peuvent exprimer des relations sémantiques parfois représentées de manière explicite : relation général/spécifique, partie-de, causalité, etc. Dans certains cas, les SOC correspondent à des langages formels au sens de la logique formelle. Mais la plupart du temps ils correspondent à des « langages opératifs » au sens où ce terme peut-être défini en ergonomie (Falzon, 89) facilitant la gestion de situations professionnelles en cherchant à réduire certains facteurs d’ambiguïté dans la communication. L’expression de « langage d’organisation des connaissances » aurait pu être également tout à fait appropriée.
Six familles de SOC représentatives
Les classifications épistémiques universelles de la bibliothéconomie et les approches à facettes universelles
7Les schémas de classification utilisés dans le domaine de la bibliothéconomie (la classification décimale de M. Dewey et la classification décimale universelle de P. Otlet et H. La Fontaine) sont les outils aujourd’hui les plus répandus pour le classement documentaire au sein des bibliothèques. Ils sont basés sur une approche épistémologique visant à classer l’ensemble du savoir humain selon une division hiérarchique. Ils visent à la fois à faciliter le rangement des exemplaires physiques et à fournir une organisation systématique des ouvrages permettant au chercheur de repérer des documents pertinents qu’il ne connaît pas encore (Hudon 2001). Alors que la CDD requiert en principe une classification unique de chaque ouvrage, la CDU permet une combinaison d’indices qui, bien qu’accroissant la précision, n’en facilite pas toujours l’usage.
8Dans un effort similaire de couverture du sens du sujet d’un livre par combinaison d’indices, le bibliothécaire indien S. R. Ranganathan propose en 1924 la « Colon Classification » (CC) basée sur le principe de l’addition de facettes classificatoires (Maniez, 1999). Chaque sujet doit être qualifié de cinq manières, selon la personnalité, la matière, l’énergie, l’espace et le temps. La CC à donné lieu à plusieurs améliorations (Maniez, 1999) concernant notamment le caractère plus ou moins universel des facettes retenues dans chaque domaine de connaissance. Cependant, pour chaque domaine, le principe est toujours de définir un vocabulaire universellement accepté pour faciliter le rangement des livres. L’approche de S. R. Ranganathan correspond pour nous à une approche à facettes universelles ou « dures » dans la mesure où le jeu de facettes est considéré comme stable et universel. Nous l’opposons à des approches à facettes locales, dans lesquelles les dimensions dépendent du contexte et de la finalité de la description sans prétendre à l’universalité (cf. infra).
Les langages documentaires et les thésaurus
9Les thésaurus constituent l’exemple le plus achevé des langages documentaires dont l’ambition est de sélectionner un terme unique pour désigner un concept. Selon la norme internationale ISO 2788 (1986), les thésaurus nés dans les années 50, sont le vocabulaire d’un langage d’indexation contrôlé organisé formellement de façon à expliciter les relations a priori entre les notions (par exemple relation générique-spécifique). Selon la même norme un langage d’indexation est un ensemble contrôlé de termes choisis dans une langue naturelle et utilisés pour représenter sous forme condensée, le contenu des documents (Saadani L. & Bertrand-Gastaldy S. 2000). Contrairement aux usages des classifications, simple (CDD) ou analytico-synthétique (CC), qui visent à définir un indice représentant au mieux le contenu du document, indice pouvant résulter dans le cas de la CC d’une combinaison d’indices élémentaires assemblés selon une syntaxe précise représentant différentes facettes, l’usage d’un thésaurus autorise l’indexeur à utiliser autant de descripteurs que bon lui semble (en tenant compte des conventions fixées dans l’entreprise).
10Le thésaurus contient un lexique (l’ensemble des termes d’une langue de spécialité) définissant les descripteurs et les non-descripteurs (termes interdits), un sous-ensemble de définitions et de notes d’application pratique et une structure classificatoire exprimée par des relations sémantiques entre les termes du lexique : relation d’équivalence intralinguistique (synonymie), relation d’équivalence interlinguistique (traduction), relation hiérarchique, relation d’association. Alors que les classifications organisent les sujets des documents, les termes des thésaurus visent à décrire des concepts. Selon Maniez (1999), la distinction entre sujet et concept est assimilable à la distinction entre parole et langue. Alors que les sujets sont en nombre potentiellement infini, les concepts correspondent à un ensemble restreint de notions associées aux ressources cognitives d’une collectivité et dépendant notamment de sa langue (Ce qui distingue le concept du sujet est son statut sociolinguistique et son statut cognitif, Maniez 1999). C’est la raison pour laquelle les concepteurs d’un thésaurus vont se fixer sur une expression linguistique, le descripteur, et le considérer « toute choses étant égales par ailleurs » comme le meilleur représentant du concept visé. C’est à cette condition qu’ils seront en mesure d’établir des équivalences interlinguistiques (traduction), « l’opérateur d’équivalence » étant précisément le concept. Si les concepteurs de thésaurus ont intérêt à travailler avec les terminologues, c’est pour identifier les variations en discours du concept et ne retenir qu’une forme canonique.
11Soulignons à ce stade deux caractéristiques. D’une part, comme le rappelle Maniez, les concepts du thésaurus sont spécialement définis à fin d’indexation à partir d’un fonds documentaire donné pour en faciliter l’interrogation ultérieure. C’est ce critère qui justifie la sélection du descripteur parmi d’autres possibles. D’autre part, si l’on suit J. Maniez, les thésaurus s’appuient sur une caractérisation des concepts qui les font au moins pour partie dépendre des langues et des mises en discours. Or, cette dépendance du concept vis-à-vis du système de la langue et la variabilité intrinsèque induite par cette dépendance, n’est pas une vision partagée par tous les concepteurs de système d’organisation des connaissances, en particulier dans le domaine des ontologies.
Les ontologies « formelles » et le web sémantique
12Comme le souligne J. Charlet (2002), l’apparition des ontologies entendues comme une nouvelle approche de la modélisation des connaissances, s’est fait clairement dans le contexte de l’ingénierie informatique. Les ontologies s’inscrivent dans la continuité de nombreux travaux sur la représentation des connaissances, réseaux sémantiques, cartes conceptuelles, graphes conceptuels et leur popularité à principalement bénéficiée du développement du web sémantique, une vision prospective et normative du web proposée par Tim Berners Lee (2001) en 1994, sans avoir connu, à ce jour, le succès escompté. Comme les principaux langages de représentation des connaissances issus des sciences cognitives et de l’intelligence artificielle et comme les thésaurus, les ontologies visent à décrire des concepts, qui sont appréhendées comme des représentations mentales plus ou moins universelles ou comme des catégories a priori largement partagées dans la droite ligne de la philosophie de la connaissance (Guarino 1998).
13On distingue des ontologies de différents niveaux de généricité : des ontologies dites de haut niveau qui contiennent « des concepts très généraux comme l’espace, le temps, la matière, les objets, les événements, les actions, etc. [qui] ne dépendent pas d’un problème ou d’un domaine particulier » (Lando, 2006) ; des ontologies de domaine (médecine, architecture, mécanique..) ; de tâche (diagnostiquer, enseigner) ; voire d’application, dans lesquelles les concepts appartiennent à un domaine et à une tâche particulière (enseigner la médecine). Les ontologies ont plusieurs caractéristiques importantes.
14Comme d’autres langages de représentation des connaissances, elles n’ont pas une vocation exclusivement documentaire au sens de l’indexation et de la recherche d’information mais elles visent aussi à participer de l’ingénierie des connaissances d’un domaine et en particulier à « spécifier explicitement une conceptualisation » pour reprendre les termes de T. Gruber (1993).
15Point corollaire du précédent elles n’ont pas à être conçues strictement à partir d’un fonds documentaire qu’elles viseraient à indexer. Même si les ingénieurs de la connaissance responsables de leur conception utilisent souvent des outils terminologiques appliqués à des textes de référence du domaine, ils peuvent également s’appuyer sur d’autres sources d’information comme des entretiens auprès d’experts, l’analyse de bases de données, ou des conceptualisations ad hoc issues de leur propre synthèse des connaissances du domaine considéré.
16Bien que la dimension documentaire ne soit pas, comme on l’a dit, leur justification intrinsèque, leur ancrage au sein du web sémantique tendrait néanmoins (pour autant qu’elles se diffusent effectivement) à leur faire jouer un rôle essentiel dans la recherche et la mise en relation d’information. Mais l’information dont elles visent à faciliter l’accès est d’abord celle du web invisible, celui constitué par les multiples bases de données qui consignent l’information structurée des processus d’affaires et des références techniques. Cette vocation première est aujourd’hui concurrencée par l’usage des ontologies pour annoter des documents plus classiques, mais cette tendance reste minoritaire.
17En conséquence, les ontologies formelles ne sont pas faites pour être directement exploitées par des usagers humains engagés dans une navigation hypertextuelle comme cela pourrait être le cas pour une classification documentaire ou un thésaurus. Au contraire, elles sont le plus souvent conçues pour être exploitées par des programmes informatiques (des agents de recherche automatique sur le web), l’utilisateur interagissant avec l’agent à l’aide d’un formulaire ou d’un autre type de langage de requête.
18De ce fait, les ontologies gagnent à être représentées à l’aide de langages formels, le standard proposé par le W3C (World Wide Web Consortium) étant aujourd’hui OWL (Ontology Web Language), qui s’exprime à partir du langage RDF (Ressource Description Framework), proche des réseaux sémantiques, lui-même exprimé à l’aide de balises XML comme tous les langages du web sémantique. Les classifications exprimées en OWL s’appuient sur une stricte séparation classe/instance, l’héritage de propriétés, l’expression de contraintes de cardinalité et de contraintes logiques sur les relations entres propriétés, etc. Cette formalisation extrême vise à répondre aux objectifs ultimes du web sémantique tels que définis par T. B. Lee qui était de fournir des réponses logiquement fondées (« vraies ») aux requêtes des utilisateurs.
19Enfin, la raison d’être première des ontologies formelles, liée à la manipulation des données structurées du web invisible en réponse à des requêtes complexes sur la base d’une sémantique formelle, a des conséquences sur le niveau de signification associé à ces langages. La sémantique des ontologies est une sémantique référentielle au sens de la philosophie analytique, les termes recevant une valeur de vérité ancrée sur des référents externes objectivables. Les concepts décrits par les termes de l’ontologie ont donc également principalement une valeur référentielle comme dans la tradition artistotélicienne où le sens d’un signe est conçu comme représentation mentale (concept), et défini par ce à quoi il renvoie dans le monde (le mot « chien » « signifie » ce quadrupède à poils ras). (Lacour, 2004, citant Rastier, 1997). Or, cette vision du concept est largement incompatible avec les épistémologies de la philosophie pragmatique (J. Dewey) ou de la tradition herméneutique (cette dernière étant largement répandue dans les sciences humaines et sociales), épistémologies que nous défendons dans le cadre du web socio-sémantique.
20Pour conclure cette partie, insistons sur le fait que le terme d’ontologie est aujourd’hui utilisé de manière bien plus large et imprécise pour désigner toute classification aisément partageable sur le web grâce à l’usage des standards du W3C que sont les langages XML et RDF. Ces usages ne facilitent pas la compréhension des enjeux sous-jacents à la normalisation sémantique des données à vocation universalisante qui reste au cœur du projet du web sémantique formel.
Les approches multidimensionnelles : les ontologies sémiotiques (web socio-sémantique) et les approches à facette locales
21Les approches à facettes locales comme les approches du web socio-sémantique à base de points de vue partagent l’idée selon laquelle la caractérisation des documents ou des situations gagne à s’appuyer sur plusieurs dimensions pour faciliter et enrichir le travail de classification ou d’indexation par rapport au système de classification hiérarchique. Cependant le sens conféré aux différentes dimensions varie selon les approches.
22Proposé au sein de l’équipe Tech-CICO de l’Université de technologie de Troyes et issu de préoccupations conjointes à l’ingénierie des connaissances, au CSCW (Computer Supported Cooperative Work) et au Social Informatics (Turner 2007), le web socio-sémantique s’oppose à la vision logiciste du web sémantique initialement proposés. T. Berners-Lee tout en s’inscrivant dans le projet d’une structuration des ressources documentaires partagées sur le web facilitant la réalisation d’activités coopératives distribuées (Zacklad, 2005 ; Zacklad et al., 2007 ; Cahier 2005). Pour instrumenter cette vision du web, nous proposons un format de représentation de l’information, la métasémiotique HyperTopic, permettant de construire et de partager aisément des ontologies sémiotiques de type cartes de thèmes (Cahier, 2005) ou réseaux de description (Bénel, 2003) [6]. L’application de la métasémiotique à un domaine de connaissance produit une sémiotique tâche-domaine pouvant servir d’index pour caractériser des « items » qui peuvent eux-mêmes être associés à des ressources (voir Zacklad et al., 2007) [7].
23Les ontologies sémiotiques partagent avec les thésaurus leur structure hiérarchique rassemblant des expressions significatives du domaine selon une relation général/spécifique, sans imposer un formalisme logique ou « orienté objet » (pas de relation d’héritage au sens strict, par exemple). Mais elles s’en différencient également à plusieurs titres.
24Elles sont considérées comme des ontologies dans la mesure où elles visent à classifier des situations, des personnes ou des artefacts qui ne sont pas nécessairement entièrement documentés. Si elles ne sont donc pas produites exclusivement par l’analyse d’un corpus de documents primaires, elles donnent cependant toujours lieu à la réalisation d’un document secondaire articulatoire (un document pour l’action, Zacklad 2007) dans lequel la sémiotique tâche-domaine est exprimée. Comme les ontologies formelles, ou plus largement les modèles dit de « représentation des connaissances » (p.e. cartes conceptuelles), elles sont construites par des ingénieurs de la connaissance, sur la base de l’analyse de documents primaires mais également à l’aide d’entretiens avec des experts ou par l’analyse ad hoc d’un domaine.
25Elles sont toujours multiples et visent à caractériser un ensemble d’items selon différents points de vue. Chaque point de vue est en principe défendu par un ou plusieurs acteurs et peut être socialement et/ou cognitivement conflictuel avec un autre. L’organisation de la diversité des points de vue permet de médiatiser la coopération entre des acteurs ou des communautés d’acteurs hétérogènes. Les domaines traités sont toujours en partie controversés ou sujets à des interprétations ou des formes d’expériences contrastées. De ce fait, les ontologies sémiotiques doivent être évolutives et pouvoir être facilement actualisées par les représentants des points de vue en présence ou par l’intermédiaire de l’ingénieur de la connaissance qui les accompagne. Dans certaines applications actuelles basées sur Hypertopic (Agorae, Cahier 2005), l’ingénieur de la connaissance a été le médiateur humain responsable de la construction des différentes ontologies sémiotiques. Cependant, l’objectif à terme, est que les plateformes informatiques permettent l’élaboration dynamique, par les acteurs eux-mêmes, de ces ontologies, ce qui n’exclut d’ailleurs pas la fonction régulatrice de l’ingénieur de la connaissance.
26Les ontologies sémiotiques, cartes de thèmes ou réseau de descripteurs selon les applications, contiennent des thèmes plutôt que des concepts ou des sujets. Sous un certain angle, les thèmes pourraient être assimilés à des descripteurs visant à caractériser des « concepts sémiotiques » (voir Cahier, 2005) représentés par un ou plusieurs items selon la généralité du concept considéré. Nous sommes néanmoins toujours prudents dans l’utilisation du terme de concept à cause de l’acception référentielle dominante qu’il possède dans les ontologies formelles. Notre approche du sens peut-être dite rhétorico-herméneutique dans la lignée de Rastier (2003) [8], l’appréhension du sens d’un terme dépendant au moins de trois facteurs : la proximité de ce terme vis-à-vis de termes voisins mais différents, le parcours de lecture permettant de l’appréhender, dépendant ici des associations hypertextuelles définies par l’ontologie sémiotique et la situation d’énonciation [9] (ou contrat de lecture), correspondant souvent en ingénierie des connaissances à la « tâche ».
27Par opposition aux approches à facettes universelles, les approches à facettes locales considèrent que chaque domaine d’application requiert un jeu de facettes spécifiques. Le degré d’opportunisme versus de stabilité associé à chacun de ces domaines peut varier selon les approches méthodologiques. La méthodologie ISIS associée à une infrastructure logicielle est un bon exemple d’utilisation de classification à facettes dans un environnement d’entreprise, qui permet de coordonner deux espaces de classification des documents, l’un calé sur les critères institutionnels de l’entreprise (facettes de contexte), l’autre sur des critères métiers plus spécifiques (facettes de contenu) (Marleau et al. 2008). Dans ISIS l’approche se veut assez générique pour traiter l’ensemble de la documentation d’entreprise, notamment pour les facettes de contextes qui décrivent les processus d’entreprise (Fonction, Activité, Type de contenu, Structure organisationnelle, Poste, Rôle, Acteur, etc.). Dans le cadre du projet ANR Miipa-Doc [10], d’autres approches dites « ascendantes » sont expérimentées, dans lesquels les jeux de facettes proposées sont construits de manière ad hoc en fonction du domaine et de l’application, selon une démarche qui peut se rapprocher des points de vue subjectifs et potentiellement antagonistes du web socio-sémantique (voir aussi Marleau et al., 2008).
Les annuaires de ressources internet collaboratifs et les folksonomies
28Nous avons regroupé dans cette section les annuaires internet et les folksonomies parce qu’ils s’appuient sur des applications qui mettent en synergie une communauté d’indexeurs coopérant à travers le web dans une logique proche de celle du web socio-sémantique. Les annuaires de ressources s’inscrivent dans la logique des schémas de classification de la bibliothéconomie présentés plus haut, sans toutefois revendiquer l’organisation disciplinaire à laquelle ceux-ci se conforment (Hudon, 2001). Les annuaires de ressources internet qui nous intéressent ici sont notamment ceux pris en charge par des communautés de bénévoles comme l’annuaire « libre » dmoz (http://dmoz.org/), étudié par C. Lejeune (2006, 2004). À la différence d’un annuaire comme celui de Yahoo, par exemple, construit par des salariés placés sous l’autorité de managers définissant une politique de référencement explicite, le processus social d’indexation mis en œuvre dans ces communautés relève d’un type de contrôle social qui se situe entre celui de Wikipédia et celui, plus hiérarchique, des communautés open source. Selon leur niveau de réputation, les membres de la communauté virtuelle peuvent contrôler des niveaux plus ou moins hauts de la classification, rajouter de nouvelle branches dans les domaines au sein desquels ils font « autorité », supprimer les descriptions effectuées dans la « notice » par des participants moins renommés, etc. L’accroissement de réputation qui permet à un membre de la communauté de se voir octroyer des droits supplémentaires se fait notamment en traçant ses contributions déjà effectuées.
29Mais le dispositif qui connaît aujourd’hui le plus grand succès est celui constitué par les folksonomies dans le contexte des modèles d’affaire et des usages participatifs du web 2.0. Les folksonomies s’appuient sur des dispositifs informatiques donnant la possibilité à l’usager d’indexer des documents afin qu’il puisse plus aisément les retrouver grâce à un système de mots-clés (Le Deuff, 2007). Chaque utilisateur des plateformes telles que Del.icio.us (http://del.icio.us) ou Flickr (http://www.flickr.com), peut déposer des ressources, marque-pages ou photo personnelle, et leur associer des mots-clefs qu’il peut ensuite partager avec les autres utilisateurs. Malgré les défauts liés à la faible cohérence des descripteurs (synonymie, polysémie, non-explicitation des facettes prises en compte, absence de relation sémantique…) les folksonomies semblent connaître un réel succès.
30Comme le soulignent O. Ertzscheid et G. Gallezot (2006), les folksonomies, qu’ils assimilent à des pratiques d’indexation sociale, tirent leur force de deux phénomènes. D’une part, du faible effort cognitif requis par leur utilisation en comparaison des classifications épistémiques de la bibliothéconomie et, d’autre part, de la fonction de régulation offerte par la mise en visibilité des mots-clefs déposés par l’ensemble des utilisateurs qui permet d’avoir un effet de feed-back rapide sur leur popularité et leur degré de couverture (Ertzscheid et Gallezot 2006). Cet effet est renforcé par la possibilité d’accéder directement au site identifié par le marque-page (Del.icio.us) ou à la photo indexée (Flickr), ce qui réduit le coût potentiel de l’erreur d’indexation et permet de désambiguïser rapidement certains mots-clefs. Ces propriétés sont d’autant plus essentielles qu’à la différence des annuaires de ressources internet qui sont contrôlés par des indexeurs sélectionnés selon leur réputation, les folksonomies sont totalement ouvertes au public inscrit sur les sites.
31Les annuaires de ressources internet collaboratifs, comme les folksonomies, ne représentent pas des innovations majeures du point de vue de l’organisation conceptuelle des descripteurs. Le premier dispositif offre des schémas de classification bien moins sophistiqués que ceux développés par la bibliothéconomie et les folksonomies correspondent à des listes de termes dont la cohérence apparaît comme bien faible, eu égard à celles proposées par les professionnels de la documentation. Dans les deux cas, l’innovation majeure se situe dans le processus collaboratif de construction des schémas de classification ou des listes de descripteurs et dans le processus d’indexation associé à cette construction à partir d’un flux de documents primaires très hétérogènes et dont le volume s’accroît très rapidement. Dans la perspective du développement du web socio-sémantique, mais également dans la perspective du développement de nouveaux outils de gestion des bibliothèques numériques, l’hybridation entre des dispositifs professionnels de type schémas de classification, thésaurus et ontologies et ces nouveaux dispositifs de gestion collaborative de l’information numérique via le web, nous semble très prometteuse.
Les index automatiques des moteurs de recherche
32Les index automatiques sont les meilleurs exemples de SOC automatiques. Ils sont construits par les moteurs de recherche et constituent des SOC opaques qui peuvent être efficaces mais sont difficiles à interpréter par leurs usagers. La constitution de ces index résulte de plusieurs opérations successives permettant d’associer à chaque document d’un corpus considéré une liste de termes : lemmatisation, filtrage des termes significatifs à l’aide d’anti-index, pondération selon leur pertinence à l’aide d’algorithmes statistiques mettant en relation la fréquence du terme dans un document avec sa fréquence dans le corpus (cf. TF-IDF), etc.
33Les index des moteurs de recherche sont généralement invisibles pour les utilisateurs bien qu’ils soient sans doute parmi les plus sollicités. Étant donné le nombre immense de documents indexés, particulièrement sur le web, seuls les documents retournés en premier sont généralement consultés. Les algorithmes de pondération qui associent avec une plus ou moins grande force un descripteur avec un document jouent de ce fait un rôle essentiel. Parmi les innovations les plus intéressantes de ces dernières années figure le traitement spécifique des métadonnées. Dans les moteurs de recherche proposés aux entreprises, les administrateurs du moteur ont la possibilité d’intervenir directement dans les mécanismes de pondération. Cette possibilité ouvre la voie à des approches à base de SOC hétérogènes (Zacklad et Giboin, 2010) qui offrent de nouvelles opportunités pour la recherche ouverte d’information.
Cinq critères de comparaison des SOC
34Les critères de présentation des SOC que nous allons présenter peuvent être représentés par une liste de cinq questions :
- Qui parle, qui participe, au nom de quoi ? (l’instance énonciative responsable du SOC)
- De quels objets ? (la source de la description, primaire ou secondaire, modèle de situation ou de contenu)
- Dans quel format d’expression ? (le type et le degré de formalisation du SOC, sémiotique ou logico-mathématique)
- Quel est le niveau de signification des termes du SOC par rapport aux « objets » qu’ils décrivent ? (référentiel ou rhétorico-herméneutique)
- En utilisant quel principe d’association entre les termes pour permettre quel type de raisonnement ? (typé et référentiel, heuristique, statistique).
L’instance énonciative responsable du SOC
35Bien que certains promoteurs de SOC aiment à présenter ceux-ci comme des systèmes objectifs, stables et pérennes dans la longue durée, cette vision ne résiste pas longtemps à l’analyse. Les SOC les plus stables sont aussi les plus simples et ceux qui font référence aux données les plus triviales. Le schéma de classification Dublin Core est sûrement plus stable qu’un thésaurus de domaine en biologie ou en sociologie et au sein de Dublin Core, le champ « sujet » est probablement un des moins stables. Dès que les SOC s’attachent à décrire des caractéristiques des documents ou des situations moins triviales, ils s’appuient sur des choix de conception délibérés qui engagent les auteurs du SOC et relèvent d’hypothèses sur les modalités d’exploitation par les usagers.
36Dans le tableau 1, on met en évidence quatre approches classiques que l’on retrouve dans la conception des SOC. Dans la première ligne, le SOC est conçu par des professionnels des bibliothèques et/ou de la documentation. Dans de nombreux cas, ces professionnels considèrent qu’ils détiennent des méthodes d’analyse qui leur permettent de concevoir le SOC seuls, sans consulter les experts du domaine ou les usagers. Dans la deuxième ligne, on trouve les méthodes mises en œuvre dans le domaine de l’ingénierie des connaissances et dans certains projets d’ingénierie documentaires. Dans ces approches, les concepteurs s’appuient sur des connaissances expertes qui sont « recueillies » auprès de spécialistes du domaine, mais ils gardent la responsabilité pleine et entière du SOC et de ses évolutions.
37Les trois dernières lignes correspondent à des approches qui tirent directement partie des nouvelles opportunités informatiques qui permettent une mise à jour directe et interactive des SOC et des fonds documentaires qu’ils indexent. Dans la troisième ligne, ce sont les « experts » qui contribuent directement à la mise à jour du SOC, les concepteurs pouvant occuper alors une position de médiation et de régulation des contributions. Enfin, les deux dernières lignes correspondent aux cas où ce sont les utilisateurs eux-mêmes qui contribuent à la conception du SOC. Ces utilisateurs peuvent être des groupes de professionnels partageant des préoccupations communes, par exemple, dans le cas des approches à facettes locales, ou de vastes communautés d’utilisateurs partageant des ressources sur le web comme dans le cas des plateformes Delicious ou Flickr.
Type de collectif impliqué dans la conception des SOC
Type de collectif impliqué dans la conception des SOC
La source de la description : primaire ou secondaire, modèle de situation ou de contenu
38La deuxième distinction sépare les SOC selon qu’ils visent principalement à rendre compte d’une situation externe ou du contenu d’un document préexistant. Le premier type de SOC vise à représenter de manière schématique les composantes d’une situation qui n’a pas été préalablement documentée sur la base d’interviews avec des experts du domaine ou des usagers potentiels du SOC. Parfois, le document produit se résume au SOC lui-même, comme dans le cas de la saisie d’un formulaire à partir de questions à choix fermés. C’est notamment le cas pour des SOC dont la signification des termes est principalement référentielle. Mais il peut également s’agir d’une liste de mots-clefs visant à décrire de manière contrôlée une situation sur la base d’une visite d’expert, description qui peut inclure des éléments d’appréciation plus subjectifs. En fournissant une description primaire, les SOC définissent aussi le modèle d’une situation.
39Le second type de SOC correspond aux usages traditionnels des langages documentaires, des métadonnées et des moteurs de recherche. Les SOC visent à représenter le contenu d’un ensemble de documents qui constitue une source secondaire par rapport aux situations telles qu’elles ont pu être expérimentées ou imaginées par les auteurs [11]. À ce titre, ces SOC correspondent à des modèles du contenu des documents. Dans l’univers numérique, l’ensemble des métadonnées associées au document peut combiner modèle de situation et modèle de contenu. En bibliothéconomie on associe une description dite physique (catalogage) : titre, noms des responsables intellectuels, date de publication, nombre de pages, etc. (Hudon, 1999-2000), destinée à la notice bibliographique, avec une autre description qui est celle des concepts contenus dans le document à l’aide de descripteurs, l’indexation du contenu. Le modèle physique du document correspond à un modèle de la situation de production de ce document : qui l’a écrit, qui l’édite, à quelle date, etc. L’indexation correspond à un modèle du contenu. Dans certains SOC à facettes destinés à l’archivage numérique (ISIS, Marleau et al., 2008), on introduit explicitement cette distinction en séparant les facettes de contexte (de situation dans notre terminologie) des facettes de contenu (les seules qui étaient prise en compte par Ranganathan). Pour construire les facettes de situation, on peut s’appuyer directement sur une modélisation des processus d’affaire, une description primaire qui permet de caractériser l’origine, le statut et la finalité des documents dans les activités de l’organisation.
La source de la description : contenu ou situation
La source de la description : contenu ou situation
Le type et le degré de formalisation du SOC : sémiotique ou logico-mathématique
40Le troisième critère établit une distinction selon le type et le degré de formalisation des SOC. Comme nous le développons dans Zacklad (2005), la formalité peut s’entendre en deux sens différents : selon la formalité sémiotique et selon la formalité logico-mathématique. Dans les deux cas le terme du SOC met en évidence des types qui permettront de contrôler la signification attribuée à d’autres termes « objets ». Mais alors que dans la formalité sémiotique, la définition du type est influencée par le contexte et la situation, dans la formalité logico-mathématique ce sens est totalement indépendant de ces paramètres et peut être désigné par des symboles arbitraires qui n’ont aucune signification pour les usagers. Comme nous le verrons dans la partie suivante, cette signification est définie de manière strictement référentielle par des opérations ensemblistes sur des attributs objectifs.
41Selon l’autre sens de formel, le sens de la logique mathématique ou de la linguistique générative, formel signifie « qui ne tient pas compte de la signification des éléments » (TLF 2010), comme dans l’expression de « grammaire formelle ». La logique formelle comme la grammaire formelle sont uniquement constituées par des règles d’agencement syntaxique entre des symboles a priori vides de sens qui peuvent faire l’objet de calculs sans considération de sémantique. Celle-ci est appréhendée par la sémantique formelle qui se ramène à une projection dans un modèle dans lequel les propositions manipulées prennent la valeur vrai ou faux. À ce titre, les langages formels ne sont pas des sémiotiques, du moins dans le sens qu’Hjelmeslev et la grande majorité des sémioticiens ultérieurs qui se réclament de lui donnent à ce terme. Comme l’explique S. Badir (2000) :
« Certes, les sémiotiques sont des systèmes de signes (définition usuelle) mais, dans l’acception hjelmselvienne, leurs plans d’expression et de contenu doivent chacun avoir une structure propre. Au vu de cette condition, le jeu d’échec, ou l’algèbre, ne sont pas des sémiotiques parce que chaque élément d’expression y est toujours corrélé au même élément de contenu (de sorte que l’on n’a pas besoin véritablement d’y dissocier un contenu et une expression). La valeur d’un fou est d’aller sur plusieurs cases en toutes diagonales (et en toutes diagonales exclusivement au contraire de la reine), que le fou soit blanc ou noir, en marbre ou en plastique, et quelle que soit sa place sur l’échiquier. […]. Dans les sémiotiques, au contraire, le plan de l’expression et le plan du contenu ne sont pas conformes l’un à l’autre […]. À un phonème (plus petit élément d’expression), pas d’élément de contenu qui ait dans son plan la même fonction que lui, et, à un sémème (plus petit élément de contenu), pas non plus d’élément d’expression qui ait dans son plan la même fonction que lui. ».
43Nous différencions ainsi les SOC selon qu’ils relèvent d’une formalité logico-mathématique ou d’une formalité sémiotique. Dans la première catégorie (tableau 2) on trouve tous les langages qui relèvent de la logique, à commencer par les langages visant à concevoir des ontologies comme OWL. Cependant, même si le degré de formalisation logico-mathématique de RDF est beaucoup plus faible que celui des langages ontologiques, bon nombre de ses applications sont également conçues comme un préalable à des efforts de formalisation visant à doter certains éléments de contenu des documents d’une sémantique formelle, au sens logico-mathématique, formalisation dont nous verrons l’intérêt indiscutable dans certains contextes applicatifs (cf. infra 4.4).
44D’autres SOC relèvent d’un autre type de formalisation qui s’applique à la très grande majorité des langages documentaires et des ressources numériques : thésaurus, CDU, approches à base de facettes ou de points de vue, cartes conceptuelles, ou utilisation de RDF « locales » qui ne visent pas une forte cohérence inter-applicative. Ce type de formalisation que nous qualifions de sémiotique est basé sur une métasémiotique au sens de Hjelmslev (Badir 2006) :
Les métasémiotiques prennent leur source dans des sémiotiques dotées, pour ainsi dire, d’un plan de contrôle. Grâce à ce plan, chaque élément du contenu trouve à s’adjoindre une expression sous un rapport de dénomination. C’est ce que l’on fait lorsqu’on dit, dans un exemple célèbre exploité par Roland Barthes, que dans telle publicité pour des pâtes françaises les teintes jaunes et vertes sur fond rouge (les couleurs du drapeau italien) signifient l’italianité (Barthes, 1982, p. 26). Italianité est une expression métasémiotique pour désigner la signification d’éléments visuels (de couleurs).
46Comme nous le disions plus haut, la constitution d’un terme en élément d’un SOC correspond à l’opération de lexicalisation qui consiste à lui accorder un statut particulier dédié à la gestion et à la recherche d’autres ressources, notamment informationnelles. Pour constituer une folksonomie une lexicalisation « simple » suffit. Pour accroître l’investissement définitionnel, deux approches sont possibles : soit comme dans un dictionnaire en fournissant une définition des termes employés, soit en utilisant une métasémiotique pour contrôler les acceptions du terme. La métasémiotique exerce un contrôle catégoriel sur les termes du SOC en leur assignant une fonction spécifique qui sera exploitée dans les opérations ultérieures de gestion et de recherche d’information. On assignera, par exemple, à un terme le statut de « terme-générique » dans un thésaurus, « d’item » dans l’approche par point de vue d’HyperTopic, ou de « nom de facette » dans une approche par facettes locale.
47Mais le contrôle catégoriel que la métasémiotique exerce sur les termes n’est pas de même nature que celui exercé par des « types » sur les objets dans la logique mathématique, ou celui exercé par les classes sur les objets (instances) en programmation, pour lesquels l’appartenance au type se ramène in fine à l’appartenance à un ensemble définie par la possession d’un certain nombre de propriétés discrètes (approche discrète et binaire de la sémantique). Dans une métasémiotique, pour déterminer si un terme relève ou non d’une catégorie, il faut procéder à une double interprétation en contexte du système des catégories et du système des termes objets. Par exemple, pour savoir si /musique bretonne/ (terme objet) est bien un « genre musical », « représentatif de », « musique celtique » (trois termes de la métasémiotique) il faut interpréter les notions de « genre musical » (selon la source sonore, le lieu de destination, la durée du morceau, le rôle social, Wikipédia 2010) de « représentatif » (un exemple, un type majoritaire, un prototype, une tendance actuelle…) et la notion de « musique celtique » (p.e. définition géographique ou ethno-musicologique). L’interprétation peut laisser subsister des ambiguïtés ou des sens multiples qui pourront être résolus (ou non) en contexte et être considérés, selon les cas, comme une richesse ou comme un défaut.
48/Musique Bretonne/, le terme objet doit lui-même être interprété selon le texte ou la situation d’interlocution d’où il émane pour savoir s’il désigne, par exemple, la /musique folklorique bretonne/ ou la /musique produite par des artistes bretons/. Dans tous les cas, les choix d’interprétation dépendront d’une intention argumentative ou rhétorique qui correspond à la finalité du SOC, à la logique de conception adoptée par ses auteurs et à celle de l’usage, qui ne sont pas toujours superposées. Il faut souligner que les termes de la métasémiotique comme les termes objets du SOC sont le plus souvent empruntés à la même langue naturelle, ce qui peut entraîner des processus de « contamination » réciproques même si les deux plans sont formellement indépendants. Ces processus, s’ils sont eux-mêmes contrôlés, ne sont en rien problématiques, l’usage de ces termes étant destiné à des communautés linguistiques sensibles à ces évolutions.
Type et degré de formalisation du langage et des combinaisons syntaxiques [12]
Type et degré de formalisation du langage et des combinaisons syntaxiques [12]
49Le recours à une métasémiotique autorise donc une forme de codification puissante, qui peut permettre des traitements informatiques simples, mais dont les résultats ne peuvent pas faire l’économie d’une interprétation par les utilisateurs. Cette interprétation découle largement du contexte, mais peut aussi être précisée par des annotations de nature diverse. Ainsi, lors d’une recherche sur un site musical, les catégories « genre musical », « représentatif de », « musique celtique », permettent de contrôler la signification de /musique bretonne/ en écartant la signification /musique produite par des artistes bretons/ au profit de /musique folklorique bretonne/. Notre point de vue est que sauf dans les cas ou une stricte automatisation excluant l’interaction avec l’usager est nécessaire, le recours à des métasémiotiques souples et faciles à mettre en œuvre est préférable aux ontologies lourdes dont le déploiement nécessite des compétences informatiques poussées (mais dont nous verrons cependant les avantages dans certains contextes).
Le niveau de signification des termes du SOC par rapport aux éléments qu’ils décrivent : référentiel ou rhétorico-herméneutique
50Ce critère correspond à l’évaluation des procédés d’interprétation qui permettent d’attribuer aux termes des SOC une signification. Le lexique du SOC est en relation avec les situations d’activités et le contexte documentaire selon différentes modalités d’interprétation qui conditionnent la manière dont il doit être utilisé pour indexer et l’exploitation qui peut en être faite dans la recherche d’information. Selon Rastier (1999), la linguistique oscille entre plusieurs traditions de l’interprétation et donc de la signification : syntaxique, sémantique (au sens de la logique) et rhétorique/herméneutique :
51« 1. La conception syntaxique fait du sens le résultat d’une interprétation au sens syntaxique du terme, c’est-à-dire d’un transcodage. Il faut alors postuler d’une part une séparation entre le syntaxique et le sémantique et, d’autre part, une compatibilité des formats (les formalismes syntaxiques et les formats sémantiques, en général propositionnels, comme la forme logique chomskyenne, sont issus du même paradigme formel) […]
522. La conception sémantique (de tradition logique) repose sur la relation de représentation entre des symboles logiques et des objets. Cependant, elle n’offre aucune garantie linguistique, et ne relève pas de la linguistique, dans la mesure où elle est nécessairement fondée sur une ontologie — et qui plus est une ontologie discrète, telle que des objets puissent être représentés par des symboles et des états de choses par des propositions.
533. Par contraste, la conception rhétorique/herméneutique conduit à une définition non logique de l’interprétation [13] : même si elle peut décrire des opérations logiques, elle s’appuie non sur la logique mais sur les sciences sociales, psychologie, sociologie, anthropologie. Fondamentalement, l’interprétation est conçue comme un parcours dans un texte ou une performance sémiotique. Cela suppose quatre facteurs ignorés par les conceptions syntaxique et logico-sémantique de l’interprétation : 1) un sujet interprète situé, 2) une pratique sociale, et donc 3) une action et 4) une temporalité (…). »
54Les deux premières relèvent globalement des approches logico-mathématiques elles-mêmes largement inspirées par les positions de la philosophie analytique et du positivisme logique, même si une analyse plus fine permettrait de mettre en évidence des divergences entre les courants. Elles correspondent aux procédés d’interprétation associés aux langages formels que nous avons examinés dans la partie précédente. Mais, certains de leurs présupposés se retrouvent directement dans d’autres types de SOC, comme ceux qui relèvent de la terminologie (Rastier, 1995), voire dans les thésaurus qui font de la référence au « concept » leur fondement théorique. Le procédé d’interprétation associé au SOC et son degré de formalisation sont deux critères qui ne se recouvrent pas entièrement même si la formalisation logico-mathématique implique un niveau de signification référentielle.
55Comme le rappel Bachimont (2000) la signification référentielle peut s’entendre en deux sens extentionnel ou intensionnel, « le paradigme référentiel, (…) associe à chaque unité linguistique une référence, un objet pris dans un univers de référence (référence extensionnelle) ou un concept (référence intensionnelle) ; comprendre un mot, c’est trouver l’objet qui lui correspond. ». A priori, la référence, surtout dans sa dimension extensionnelle, pointe sur des objets tangibles. La référence intensionnelle de ces objets, le concept, correspond à une liste de propriétés définitoires. Selon ces approches, au concept de « mammifère » sont associées deux définitions : selon la référence intensionnelle le mammifère correspond à la somme des propriétés suivantes : vertébrés, vivipares (excepté les monotrèmes), allaitant les jeunes, possédant un cœur à quatre cavités, un système nerveux et encéphalique développé, une homéothermie (température interne constante) et une respiration de type pulmonaire (Wikipédia 2010), selon la référence extensionnelle il correspond à l’ensemble des « instances » de mammifères existant dans l’univers. Même si l’on devait considérer des lexèmes et des concepts moins tangibles, comme celui de « nombre pair », il faudrait de la même manière être en mesure de définir une interprétation référentielle en intension (la divisibilité par deux) et en extension (la liste infinie de ces nombres).
56La caractéristique principale de la signification selon l’approche référentielle est que celle-ci doit être en mesure de fournir des critères de décision basés sur des propriétés des « objets » (ou des concepts associés) représentés par des propositions prenant sans équivoque possible une valeur vraie ou fausse. De cette manière il est possible de se débarrasser de toute influence exercée par le contexte du terme (le « texte » environnant) comme de toute influence exercée par la situation d’énonciation et/ou d’interlocution. Ce niveau de signification ne nous semble possible que dans trois cas de figures :
- pour traiter de concepts définis par des caractéristiques tangibles pouvant se prêter à des mesures physiques fournissant des critères de décision univoques (masse, dimensions, quantité, caractérisation physico-chimique, localisation selon longitude et latitude, heure fournie par une horloge atomique, etc.) [14] ;
- pour traiter de concepts définis par des caractéristiques administratives et institutionnelles apparaissant comme indiscutable à une époque et dans une ère géographique donnée sous le contrôle d’une autorité administrative identifiée (patronyme, localisation administrative, prix, date de création, etc.) ;
- pour traiter de concepts abstraits définis par des axiomatiques formelles portées par des communautés scientifiques actives (comme dans l’exemple du nombre pair).
57Dans des contextes où il s’avère nécessaire de rendre « interopérables » ces bases de données, le recours à des langages formels ontologiques et à leurs possibilités d’inférence peut apporter une plus-value indiscutable. Par ailleurs, le recours à la notion d’ontologie, qui traduit pour nous un effort de généralisation des concepts qui va au-delà d’un contexte applicatif à la fois restreint et changeant [16], trouve ici tout son intérêt pour permettre de s’émanciper en partie des bases de données propriétaires et de leurs éditeurs. La capacité à rassembler des groupes d’utilisateurs et de concepteurs pour qu’ils s’entendent sur la signification référentielle de certains termes et qu’ils puissent échanger des ressources informationnelles à travers leurs applications est le bénéfice majeur des projets ontologiques comme du web sémantique dans son acception originelle (essentiellement, selon nous, quand les ressources sont appréhendées sous un angle technologique et/ou administratif).
58Un travail similaire de contrôle de la signification peut-être bien sûr fait à moindre coût si l’on adopte un niveau de signification rhétorico-herméneutique comme dans le web socio-sémantique, en étant conscient du fait que les modèles construits ne viseront pas une automatisation intégrale des traitements mais requerront une interprétation humaine complémentaire. En contrepartie, il sera possible de représenter de manière explicite les points de vue complémentaires et/ou divergents en présence et d’en confier pour partie la gestion aux communautés qui les promeuvent. Cette autre approche de la signification est basée sur une conception rhétorico-herméneutique dont nous avons explicité les spécificités dans des publications relatives au web socio-sémantique et à la méta-sémiotique Hypertopic (Zacklad, 2005 ; Zacklad et al., 2007 ; 2008). Dans Zacklad (2005), pour préciser le sens de ce terme, nous nous appuyons sur les travaux de Mounin (1968), qui propose une subdivision du signifié selon trois tendances relevant d’autant de théories : logiques, contextuelles, situationnelles (ou pragmatiques). Si l’on restreint la signification du terme de logique au domaine de la logique mathématique, on peut alors considérer que la première approche du signifié correspond à la signification référentielle.
59Contexte et situation correspondent alors aux deux facettes herméneutiques et rhétoriques de la signification rhétorico-herméneutique. Le contexte correspond au texte ou aux éléments de contenu qui environnent l’expression. Ces éléments contextuels, à commencer par le genre du document, connotent le sens de l’expression qui ne peut donc pas être appréhendé indépendamment de celui-ci. Cela a pour conséquence que la même expression, utilisée dans deux contextes différents, a également une signification en partie différente, mais cela signifie également que le contexte est une ressource qui permet d’expliciter, de désambiguïser, la signification de l’expression. La situation renvoie à la prise en compte de la situation d’énonciation et donc aux dimensions rhétoriques et argumentatives qui sont toujours présentes dans un SOC ne serait-ce qu’à travers la sélection d’un lexème parmi de nombreux quasi-synonymes disponibles. C’est en imposant une suspension délibérée de la perception des connotations rhétoriques, que la signification référentielle peut parvenir à fournir une illusion de neutralité.
Théorie de la signification sous-jacente : relation entre le terme et les éléments de la situation et/ou du contenu [17]
Théorie de la signification sous-jacente : relation entre le terme et les éléments de la situation et/ou du contenu [17]
60Les choses se compliquent si l’on différencie les cas selon que la signification référentielle vise une situation ou un contenu. C’est en particulier le cas pour les moteurs de recherche qui sont basés sur une signification référentielle stricte du point de vue du contenu puisque l’index est basé sur analyse de l’occurrence des termes indépendamment de leurs sens en contexte ou en situation (même si certains algorithmes avancés tentent de prendre en compte le contexte). Par contre, la relation entre le document sélectionné et les situations qu’il évoque n’est pas référentielle. Un document indexé par le terme « transport », peut renvoyer aux « transports amoureux » ou aux « transports urbain ». S’agissant des « transports urbains » le document peut aussi bien en fournir une typologie, indiquer l’emplacement d’un réseau de bus, que dénoncer leurs nuisances dans certains environnements.
Les principes d’association et les paradigmes de recherche : typée et référentielle (requêtes de données), heuristiques (navigation), statistiques (moteur de recherche)
61Les principes d’associations fournissent une justification aux relations entre les termes des SOC que ceux-ci soient manuels ou automatiques et entre un terme et une ressource documentaire. Ce sont eux qui guident le fonctionnement des algorithmes qui permettent d’associer entre eux les termes du SOC et donc d’étendre la recherche d’information en prolongeant les requêtes portant sur certains lexèmes à d’autres termes associés. À chaque principe d’association correspond un paradigme d’accès à l’information, c’est-à-dire une vision qui conditionne de manière globale et cohérente les algorithmes de recherche, les interfaces homme-machine, les finalités et les usages, les visions développées par les communautés de recherche… Les principes d’association et les paradigmes correspondant sont au nombre de trois.
Association typées et référentielles : paradigme de la requête de données
62Les associations typées et référentielles s’appuient sur la formalisation logico-mathématique et sur un niveau de signification référentiel strict. Ce sont bien sûr celles que l’on va trouver dans les ontologies et qui inspirent les projets de web de données. Ce sont aussi celles que l’on trouve dans les bases de données de gestion. L’utilisation de thésaurus dans une stricte logique référentielle relève aussi de ce type d’associations. À ces associations correspond le paradigme de la « requête de données », au sens où les requêtes sont construites à l’aide de combinaisons complexes de couples attribut-valeur qui permettent d’explorer des données objectives, relatives à une situation particulière grâce à la signification référentielle extensionnelle des termes employés dans la requête. Ce paradigme repose sur une vision du monde ou celui-ci est décrit par des attributs standardisés faisant l’objet de conventions administratives, de mesures objectives ou permettant de gérer des inventaires d’objets numérisés ou non.
Associations heuristiques : paradigme de la navigation
63Les associations heuristiques peuvent s’appuyer ou non sur une métasémiotique qui vient contrôler la signification des catégories utilisées pour modéliser les documents ou les situations. À la différence des associations typées et référentielles, les associations heuristiques correspondent à des règles basées sur l’expérience ou sur l’analyse d’un certain nombre de cas qui fournissent des suggestions le plus souvent pertinentes sans qu’il soit possible de justifier cette pertinence par des projections référentielles strictes portant sur la définition intensionnelle ou extentionnelle des concepts. De ce fait, pour préciser la signification du terme, il faut nécessairement analyser le contexte dans lequel il se trouve à l’intérieur du SOC (c’est-à-dire les autres termes environnants).
64Ainsi, quand l’annuaire Dmoz (www.dmoz.org) met, par exemple, le folklore dans la rubrique « société », plutôt que dans la rubrique « divertissement » (« recreation » en anglais) ou « art », il utilise une association heuristique visant à traiter du folklore sous l’angle des « faits de société » plutôt que sous l’angle des performances artistiques. Plus encore, c’est le fait que « folklore » soit associé dans la même rubrique aux termes de « militantisme », « crime », « handicap », « histoire », qui permet de préciser la signification à conférer à ce terme en contexte. Il en est de même pour la signification de la rubrique « société » dont on appréhende mieux le sens à la lecture des catégories sous-ordonnées. Les mêmes considérations pourraient être faites en constatant que le descripteur « leadership » est un terme spécialisé de « comportement psychologique » et pas de « personnalité » ou de « psychologie des groupes » dans le micro-thésaurus de santé publique (http://asp.bdsp.ehesp.fr/Thesaurus/). Il s’agit sans doute d’une règle heuristique qui peut avoir sa pertinence en contexte et pas d’une signification référentielle qu’il serait difficile de justifier en intension ou en extension.
65Quand les métasémiotiques sont informatisées, comme c’est le cas pour les thésaurus en ligne ou pour l’infrastructure HyperTopic (cf. supra), l’exploration du SOC repose également sur des requêtes qui s’appuient sur le type de la relation (terme spécifique/terme générique, par exemple). Mais si d’un point de vue informatique, l’opération est similaire à celle qui serait faite pour parcourir une ontologie ou un thésaurus conçu dans une visée strictement référentielle, elle relève d’une sémantique différente et n’a pas le même sens pour les utilisateurs : « département » est un terme spécialisé de « région » selon un sens référentiel incontestable dans l’administration française, mais considérer que « autoformation » est un terme spécialisé de « méthode pédagogique » mais pas de « moyen pédagogique », ni de « processus d’apprentissage », ni de « projet pédagogique » (http://www.inpes.sante.fr/) ne peut se comprendre que par l’interprétation en contexte des termes du SOC.
66C’est la raison pour laquelle, nous considérons que les associations heuristiques relèvent du paradigme de la navigation. Il faut naviguer de manière informatique dans les termes du thésaurus ou de l’ontologie sémiotique pour en dégager le sens. Cette caractéristique ne doit pas être considérée comme une « faiblesse » par rapport au paradigme des « requêtes de données ». Il est le seul disponible pour explorer le monde dans des dimensions qui ne sont pas exclusivement référentielles mais qui font l’objet de modalités d’évaluation impliquant des éléments de subjectivité : pratiques juridiques et managériales (au-delà de la stricte comptabilité), liées aux services immatériels et relationnels (enseignement, santé, conseils de toutes natures…), liées à la recherche scientifique et à l’incertitude qui la caractérise, impliquant une forme de relation client, impliquant des contenus culturels et artistiques de toutes natures (musique, gastronomie, art du spectacle…), relevant du bricolage et de l’amateurisme, basées sur un engagement personnel (politique, associatif…), liées aux activités de loisir, etc. Dans tous ces domaines, les expressions linguistiques dans leurs diversités nationales, régionales, communautaires, contribuent à construire le sens en contexte et en situation et ne peuvent pas être remplacées par des symboles arbitraires définis par une référence objective.
Associations statistiques : paradigme du moteur de recherche
67Dans la problématique qui est la nôtre, les associations statistiques sont surtout caractéristiques des SOC construits à partir de l’analyse automatique d’un contenu, le plus souvent textuel. Mais nous verrons que ce type d’association se rencontre aussi dans les SOC folksonomiques. Les calculs statistiques interviennent surtout pour déterminer la force de l’association entre un terme de l’index et une ressource documentaire notamment par le biais du classement des ressources ou de la pondération. Mais de plus en plus ce sont bien les associations entre mots-clefs qui sont proposées à l’utilisateur pour relancer sa recherche. Dans les versions actuelles du moteur de Google (2010), par exemple, la rubrique « recherches associées » en bas de page, offre une liste de mots-clefs qui permet d’étendre la recherche sur la base d’un calcul de cooccurrence entre les termes, lui-même basé sur une approche statistique.
68Ce paradigme d’accès à l’information basée sur la représentativité d’un terme du SOC dans un corpus est caractéristique des moteurs de recherche et de leurs usages. Il combine une approche référentielle portant sur le contenu qui fait correspondre à un terme une définition en extension correspondant à la liste des documents contenant ce terme et une approche statistique pondérant la force de cette association et renvoyant vers d’autres termes liés. Mais l’association peut aussi se comprendre en un autre sens. Le plus souvent, les besoins en information des utilisateurs portent sur les caractéristiques des situations et pas des documents : en faisant une recherche sur « diabète », l’utilisateur ne cherche pas essentiellement à recenser les documents portant sur le diabète mais à accéder aux traitements les plus adaptés. La relation d’association porte donc également sur la relation entre le terme du SOC et les situations par l’intermédiaire des documents. Cette relation associative est de nature heuristique et plus implicite : la pertinence d’un document par rapport à un terme (signification référentielle et association statistique) peut secondairement indiquer une pertinence du document par rapport à la situation décrite, c’est-à-dire par rapport au besoin exprimé par le terme dans la perspective d’une mise en œuvre extra-documentaire (Zacklad 2007d).
69Comme dans le cas des métasémiotiques informatisées, les recherches des utilisateurs sont bien exécutées techniquement via des requêtes portant sur des bases de données, requêtes qui peuvent inclure des opérateurs booléens. Mais nous ne sommes pas dans le cas du paradigme de la « requête de données » au sens où les données renverraient à des caractéristiques objectives des situations. En effet les requêtes booléennes effectuent des mises en relation entre des termes non typés extraits des documents, termes qui sont eux-mêmes classés selon une approche statistique. Les choses sont bien sûr différentes dans le cas où les moteurs de recherche traitent de manière explicite les métadonnées. Mais ces métadonnées sont alors extraites d’autres SOC et nous sommes donc dans le cas des approches à base de SOC hétérogènes que nous évoquerons en conclusion.
Nature des associations entre les termes du SOC
Nature des associations entre les termes du SOC
70Les autres SOC qui nous semblent relever des associations statistiques sont les SOC de type folksonomique. En effet, la mise en valeur d’un terme dans une folksonomie est basée sur sa fréquence d’emploi par les utilisateurs : plus un terme est fréquemment utilisé pour tagger les ressources, plus il apparaîtra de manière visible notamment dans les affichages basés sur les nuages de tags. Mais les approches à base de nuages de tags, proposent également des mises en association de termes basés sur leur fréquence et parfois sur leur cooccurrence qui relèvent bien également de l’approche statistique.
Conclusion : vers des applications documentaires à base de SOC hétérogènes
71La période actuelle, celle de la redocumentarisation du monde, selon les termes de Pédauque (2006), est caractérisée à la fois par une prolifération de nouveaux types de SOC et par leur hybridation dans un contexte que nous avons caractérisé comme étant celui des applications à base de SOC hétérogènes (Zacklad et Giboin 2010). Mais pour bien comprendre le fonctionnement de ces nouvelles applications amenées à contribuer de manière importante à la recherche ouverte d’information, il faut s’appuyer sur une analyse précise des principes d’organisation et de fonctionnement des SOC actuels issus de plusieurs décennies de recherche et de pratiques. C’est l’objectif que nous avons poursuivi en présentant ces critères d’évaluation des SOC et de leur sémantique.
72Au sein du projet ANR Miipa-Doc (méthodes et services intégrés institutionnels et participatifs pour la classification à facettes des contenus documentaires complexes) nous proposons ainsi de tirer profit de manière intégrée de trois types de SOC complémentaires : l’index issu d’une recherche plein texte des moteurs de recherche disponibles dans les environnements bureautiques actuels, un système de SOC à facettes léger représentant les dimensions de l’activité professionnelle des usagers (types de documents produits, projets associés, statut du document, etc.), et un système de SOC plus classique, fournissant les informations de catalogage basiques générées automatiquement dans les environnements bureautiques (nom de l’auteur, date, format, etc.). Sans pouvoir rentrer ici dans le détail de ce projet (voir, par exemple Desfriches-Doria et Zacklad 2010b), notons que le moteur de recherche est conçu comme l’interface d’accès unifié à l’ensemble de ces SOC.
73Les moteurs actuels, en l’occurrence WDS (Windows Desktop Search), sont capables d’indexer de manière spécifique certains champs réservés à des métadonnées dans les fichiers XML et de répondre à des requêtes visant spécifiquement ces métadonnées. L’index du moteur de recherche peut donc devenir une structure hébergeant à la fois un SOC issu du traitement automatique du contenu intégral du document et des SOC issus d’un travail d’indexation manuel des utilisateurs. Les requêtes adressées à cet index et les modalités de propagation de ces requêtes sont susceptibles de relever des trois types d’association que nous avons mises en évidence : association statistique (indexation du contenu), heuristique (classification à facette ascendante), typée et référentielle (catalogage physique des fichiers).
74En effectuant une recherche à facettes sur « genre : étude technique », « projet : portail internet », « client : orange », « état : document de travail », « sujet : ergonomie », l’utilisateur a une bonne probabilité de récupérer le document pertinent. Mais il n’échappera pas complètement au bruit lié à l’usage manuel d’une métasémiotique : certains documents pourront lui sembler inadaptés par rapport à sa requête, d’autres manquants parce qu’ils n’auront pas été indexés selon un point de vue tout à fait similaire (acception différente du sujet « ergonomie », par exemple). D’où l’intérêt de la coopération multi-SOC pour une plus grande efficacité de la recherche ouverte d’information.
Remerciements
Ces travaux ont été en partie financés par l’agence nationale de la recherche (ANR) dans le cadre du projet Miipa-Doc n°2008 CORD 014 03.Bibliographie
Bibliographie
- Badir S., (2000), Hjelmslev, Paris, Belles-Lettres.
- Badir S., (2006), « La hiérarchie sémiotique », dans Louis Hébert (dir.), Signo [en ligne], Rimouski (Québec), http://www.signosemio.com/Hjelmslev/hier.asp.
- Barthes R., (1982) [1964], « Rhétorique de l’image », L’Obvie et l’Obtus. Essais critiques III, Paris, Seuil, p. 25-42.
- Bénel A., (2003), Consultation assistée par ordinateur de la documentation en Sciences Humaines : Considérations épistémologiques, solutions opératoires et applications à l’archéologie, Thèse de doctorat en informatique, INSA de Lyon, décembre 2003.
- Berners-Lee T., Hendler J., Lassila O., (2001), The Semantic Web, Scientific American, http://www.sciam.com/article.cfm?articleID=00048144-10D2-1C70-84A9809EC 588EF21
- Cahier J.P., Zacklad M., Monceaux A., (2004), Une application du Web socio-sémantique à la définition d’un annuaire métier en ingénierie, Actes des journées Ingénierie des connaissances 2004, mai 2004, Lyon.
- Cahier J.-P., (2005), Ontologies sémiotique pour le Web socio sémantique: étude de la gestion coopérative des connaissances avec des cartes hypertopiques, Thèse en informatique, Université de Technologie de Troyes, déc. 2005.
- Caussanel J., Cahier J.-P., Zacklad M., Charlet J., (2002), Les Topic Maps sont-ils un bon candidat pour l’ingénierie du Web Sémantique ? Conférence Ingénierie des connaissances IC2002, Rouen.
- Charlet J., (2002), L’Ingénierie des connaissances : développements, résultats et perspectives pour la gestion des connaissances médicales. Habilitation à diriger des recherches, Université Paris 6.
- Desfriches-Doria O., Zacklad M., (2010a), Améliorer la recherche d’information à l’aide de thésaurus ad hoc, Expérimentations et réflexions méthodologiques, Document Numérique, Applications à base de SOC hétérogènes : thésaurus, ontologies, folksonomies, etc., vol. 13, n° 2, Paris, Lavoisier/Hermès.
- Desfriches-Doria O., Zacklad M., (2010b), Apports de la psychologie du travail pour caractériser l’activité de gestion de l’information, Actes du colloque Cide 13, 16 et 17 décembre 2010, INHA, Paris
- Dewey J., (1938), Logique, la théorie de l’enquête, trad. Gérard Deledalle, col. L’interrogation philosophique, PUF, 1938 (reéd. 1993).
- Ertzscheid O., Gallezot G., (2003), Chercher faux et trouver juste, Actes du Xe Colloque bilatéral franco-roumain, CIFSIC, Université de Bucarest, 28 juin-3 juillet 2003, Bucarest SFSIC, Université de Bucarest (Ed.), sur http://archivesic.ccsd.cnrs.fr/
- Ertzscheid O., Gallezot G., (2006), Etude exploratoire des pratiques d’indexation sociale comme une renégociation des espaces documentaires. Vers un nouveau big bang documentaire ?, in Chartron G. & Broudoux, E. (Eds), Document numérique et société, ADBS Éditions, 2006 en ligne sur http://archivesic.ccsd.cnrs.fr/
- Falzon P., (1989), Ergonomie Cognitive du Dialogue, Grenoble, PUG.
- Guarino N., (1998), “Formal Ontology and Information Systems,” in Formal Ontology in Information Systems, N. Guarino, Ed. Amsterdam, Netherlands: IOS Press, 1998.
- Gruber T. R., (1993), “A translation approach to portable ontology specifications”, Knowledge Acquisition, 5, 199-220.
- Hodge G., (2000), “Systems of Knowledge Organization for Digital Libraries: Beyond Traditional Authority Files”, The Digital Library Federation Council on Library and Information Resources http://www.clir.org/pubs/abstract/pub91abst.html
- Hudon M., (1999-2000), COURS BLT 6054 - Analyse et représentation documentaires 1 ; COURS BLT 6055 - Analyse et représentation documentaires 2., Université de Montréal, École de bibliothéconomie et des sciences de l’information.
- Hudon M., (2001), « Structuration du savoir et organisation des collections dans les répertoires du Web », BBF, Paris, T. 46, n°1, 2001, p. 57-62.
- ISO, (1986), Organisation internationale de normalisation. Documentation - Principes directeurs pour l’établissement et le développement de thésaurus monolingues : norme internationale ISO 2788. [Géneve]: ISO, 1986.
- Lacour P. (2004). L’oubli de la sémantique dans le programme cognitiviste : réflexions sur l’œuvre de François Rastier, Texto ! décembre 2004 [en ligne], Disponible sur : http://www.revue-texto.net/Inedits/Lacour_LOubli.html
- Lando P., (2006), « Conception et développement d’applications informatiques utilisant des ontologies : application aux EIAH », Actes des Premières rencontres jeunes chercheurs en EIAH (RJC-EIAH’06), Évry, France, 11-12 mai 2006.
- Le Deuff O., (2007), « Folksonomies : Les usagers indexent le web », BBF, 2006, n° 4, p. 66-70, http://bbf.enssib.fr
- Christophe Lejeune, (2004), Sociologie d’un annuaire de sites Internet. Les sciences documentaires saisies par l’informatique libre, Thèse de Doctorat, Université de Liège.
- Lejeune C., (2006), « Ce que l’annuaire fait à internet : Sociologie des épreuves documentaires », Cahiers de la documentation, vol. 60, n° 3, p. 12-22.
- Maniez J., (1999), « Des classifications aux thésaurus : du bon usage des facettes », Documentaliste-Sciences de l’information, juillet-octobre 1999, vol. 36, n° 4-5, p. 249-262.
- Marleau Y., Mas S., Zacklad M., (2008). « Exploitation des facettes et des ontologies sémiotiques pour la gestion documentaire », In Broudoux, E. & Chartron, G. (Eds). Traitements et pratiques documentaires : vers un changement de paradigme ? Paris, ADBS Editions, p. 91-110.
- Pédauque R.T., Le document à la lumière du numérique, C&F Éditions, septembre 2006.
- TLF (2010), Trésor de la langue française, en ligne.
- Toms E., 2000. « Serendipitous Information Retrieval. », Proceedings of the First DELOS Network of Excellence Workshop on Information Seeking, Searching and Querying in Digital Libraries, Zurich, Switzerland: European Research Consortium for Informatics and Mathematics. http://citeseer.csail.mit.edu/toms00serendipitous.html
- Turner W., (2007), « Eléments pour une socio-informatique », in Reber, B., Brossaud, C., Humanités numériques. Nouvelles technologies cognitives et concepts des sciences sociales, Hermes Publishing, Londres-Paris (à paraître).
- Rastier F., (1997), « Herméneutique matérielle et sémantique des textes », in Salanskis et al. (éds.), Herméneutique : textes, sciences, Paris, PUF.
- Rastier F., (2003). De la signification au sens. Pour une sémiotique sans ontologie. Texto! http://www.revue-texto.net/Inedits/Rastier/Rastier_Semiotique-ontologie.html, juin-sept. 2003,
- Saadani L., Bertrand-Gastaldy S., (2000). Cartes conceptuelles et thésaurus : essai de comparaison entre deux modèles de représentation issus de différentes traditions disciplinaires, In Kublik A., ed., Les dimensions d’une science de l’information globale, ACSI-CAIS http://www.cais-acsi.ca/2007call_fr.htm
- Wikipédida (2010), http://fr.wikipedia.org.
- Zacklad M. (2005a), « Introduction aux ontologies sémiotiques dans le Web Socio Sémantique », In Jaulent, M.-C., 16e journées francophones d’Ingénierie des Connaissances, 30 mai-3 juin 2005, Nice, Grenoble, PUG.
- Zacklad M., (2005b), « Ergonomie de la Recherche d’Information (RI) sur le Web : quel modèle de l’activité ? », Présentation à l’école d’été du GDR TICS, septembre, 2005, http://gdrtics.u-paris10.fr/pdf/ecoles/sept2005/transparents_Zacklad.ppt
- Zacklad M., (2007a). « Processus de documentarisation dans les Documents pour l’Action (DopA) », Babel - edit -, Le numérique : impact sur le cycle de vie du document. ENSSIB, février 2007 [en ligne] http://babel.enssib.fr/document.php?id=727
- Zacklad M., (2007b). Annotation : attention, association, contribution, In P. Salembier et M. Zacklad eds, Annotations dans les Documents pour l’Action, Lavoisier, Paris, p. 29-46.
- Zacklad M. (2007c), « Une théorisation communicationnelle et documentaire des TIC », in Reber B., Brossaud C., Humanités numériques. Nouvelles technologies cognitives et concepts des sciences sociales, Hermes Publishing, Londres-Paris (à paraître).
- Zacklad M. (2007d). « Classification, thésaurus, ontologies, folksonomies : comparaisons du point de vue de la recherche ouverte d’information (ROI) », In C. Arsenault et K. Dalkir (dir.) CAIS/ACSI 2007, Actes du 35e Congrès annuel de l’Association canadienne des sciences de l’information. Partage de l’information dans un monde fragmenté : franchir les frontières, Montréal, Canada, http://www.cais-acsi.ca/proceedings/2007/zacklad_2007.pdf
- Zacklad M. (2010a). « Les écritures de l’information dans les TIC et le SI », In V. Nesset, E. Ménard, S. Mas (dir.) CAIS/ACSI 2010, Actes du 38e Congrès annuel de l’Association canadienne des sciences de l’information. Sciences de l’information : la synergie à travers la diversité, Montréal, Canada, http://www.cais-acsi.ca/proceedings/2010/CAIS104_Zacklad_Final.pdf
- Zacklad M. (2010b). « Introduction aux Appareils de Capture Sémantique dans les TIC et le SI », in Noyer J.M. & Juanals, B.(2010), Technologies de l’information et intelligences collectives, Hermes-Lavoisier, Paris, p. 175-199.
- Zacklad M., Cahier J.-P., Bénel A., Zaher H., Lejeune C., Zhou C., (2007), « Hypertopic : une métasémiotique et un protocole pour le Web socio-sémantique », in Actes des 18e journées francophones d’Ingénierie des Connaissances, 2-6 juillet 2007, Grenoble (à paraître).
- Zaher H., Cahier J.-P., Zacklad M., (2006), “Information Retrieval and E-Service : Towards Open Information Retrieval”, In Proceedings of International Conference on Service Systems and Service Management IC SSSM’2006, IEEE, France, october 2006, p. 41-46.
- Zacklad M., Giboin A., (2010), « Systèmes d’Organisation des Connaissances (SOC) hétérogènes pour les applications documentaires », Document Numérique, Applications à base de SOC hétérogènes : thésaurus, ontologies, folksonomies, etc., vol 13, n° 2, Paris, Lavoisier/Hermès.
Mise en ligne 05/04/2011
Notes
-
[1]
Nous utilisons l’expression « logico-mathématique » par opposition à une approche « logico-pragmatique », cf. J. Dewey (1938).
-
[2]
Nous avions fait un choix différent dans notre article sur les « Appareils de capture sémantique » (Zacklad, 2010).
-
[3]
« Les figements sont souvent classés parmi les idiomatismes. Mais comme le montre l’épreuve de la traduction, tout est idiomatique dans une langue (…) Le problème de la traduction montre cela clairement. Il est des cas où Rocard monte au créneau se traduit par la transposition Felipe Gonzalez sube al arena [descend dans l’arène]. La notion de figement peut être entendue de deux manières. Au niveau morphosyntaxique, on considère comme figée une séquence de morphèmes qui ne permet pas d’intercalation. Au niveau sémantique, les mots qui constituent une lexie complexe n’ont pas d’autonomie contextuelle, si bien que le parcours interprétatif attribue un sens à la lexie, mais non à ses composants. », in Rastier 1997, Martins-Baltar, M. (éd.), La locution, entre langues et usages, coll. Signes, ENS Éditions Fontenay/Saint Cloud, diff. Ophrys, Paris, 1997, pp. 305-329.
-
[4]
Dans Zacklad 2010a, nous rappelons que certains procédés d’écriture automatique utilisent directement des capteurs qui mesurent certaines caractéristiques physiques des situations.
-
[5]
Nous employons ici le terme de lexicalisation pour décrire un procédé visant à investir une expression pour lui conférer un statut de lexème dans un lexique (ou vocabulaire) dédié à la gestion de l’information, c’est-à-dire essentiellement à l’annotation documentaire ou indexation et à la recherche des documents indexés (mais un système de classification repose aussi sur un lexique). La lexicalisation peut porter sur un terme simple ou sur une expression qui aura été figée. Ce statut de lexème signifie que les variations, notamment orthographiques, subies par le terme renvoient à une forme canonique conventionnelle sans présumer du degré d’investissement définitionnel (Zacklad, 2005) dont le lexème fait l’objet. Dans le cas des ontologies sémiotiques, par exemple, l’investissement définitionnel est fort. Il est beaucoup plus faible dans les folksonomies ou dans les vocabulaires dédiés à la gestion de listes de signets. Nous emploierons indifféremment l’expression de « terme d’un SOC » ou de « lexème d’un SOC ».
-
[6]
Près d’une quinzaine d’applications dans différents domaines ont été réalisées à ce jour, mais davantage dans un contexte intranet qu’internet (Zacklad & al., 2007).
-
[7]
Dans une base documentaire décrivant des projets de recherche & développement, les projets sont considérés comme des items caractérisés par des ressources documentaires (des fichiers), des attributs standards (dates, participants…) et des attributs heuristiques, c’est-à-dire des cartes de thèmes représentants les ontologies sémiotiques.
-
[8]
Pierce est également un inspirateur important pour certain d’entre nous (Cahier, 2005).
-
[9]
Moins présent à notre connaissance chez Rastier.
-
[10]
Méthodes et services intégrés institutionnels et participatifs pour la classification à facettes des contenus documentaires complexes (ANR Miipa-Doc n°2008 CORD 014 03).
-
[11]
Notre utilisation de la notion de source de la description diffère quelque peu de celle qui est fait en histoire ou dans le domaine de la veille quand on distingue les sources primaires des sources secondaires. En effet, dans ces disciplines, les sources primaires sont des documents « originaux » qui n’ont pas été retravaillés par le chercheur : courrier, archive, etc. (Wikipédia 2010). Dans notre acception du terme, une description primaire correspond à une description qui est effectuée à partir de l’expérience directe d’une situation par le biais d’observations, d’entretiens, d’analyses, etc. Un SOC a une source primaire quand ses termes font référence aux caractéristiques d’une situation extradocumentaire : attributs d’une personne ou d’un objet, attitude, nom de l’auteur d’une œuvre, etc. Il a une source secondaire quand il décrit le contenu d’un document.
-
[12]
Repérage automatique d’un titre ou d’un nom d’auteur, par exemple.
-
[13]
Au sens logico-mathématique.
-
[14]
Il n’est pas sûr, par exemple, que toutes les classifications du vivant rentrent facilement dans cette catégorie.
-
[15]
Dans Zacklad (2005) nous opposons aux concepts référentiels, les concepts sémiotiques associés à la signification rhétorico-herméneutique.
-
[16]
Bien que certains auteurs parlent d’ontologie de tâche.
-
[17]
Cf. Desfriches-Doria et Zacklad 2010a.