Notes
-
[*]
Les sigles des technologies relatives au web sémantique sont développés en page 29.
-
[1]
François Rastier. Sémantique interprétative, 3e éd. mise à jour, Presses universitaires de France, 2009.
-
[2]
Sont indiquées entre parenthèses les dates de publication des recommandations du W3C.
-
[3]
Tim Berners-Lee. “W3 future directions”, International World Wide Web Conference, Geneva, September 1994 http://www.w3.org/Talks/WWW94Tim/
-
[4]
En informatique décisionnelle, un data cube ou cube de données est une matrice à trois dimensions ou plus (c’est pourquoi on peut parler d’hypercube) où chacune d’elles est formée des données d’un axe d’analyse distinct (par exemple pour le chiffre d’affaires, les axes des régions, périodes, produits).
-
[5]
On lira avec profit à ce sujet le document de définition des URI : http://tools.ietf.org/html/rfc3986
- [6]
- [7]
- [8]
- [9]
- [10]
- [11]
- [12]
- [13]
- [14]
-
[15]
Consortium formé par les sociétés Antidot, Mondeca et Sword.
-
[16]
Un SparQL endpoint est une interface d’interrogation d’une base de données RDF (ou triple store) utilisant le langage de requête SparQL, cf. l’article p.35.
-
[17]
Cet article propose une courte synthèse des enjeux pour les acteurs du marché de l’information, réalisée à partir des présentations qui se sont déroulées lors du séminaire « Introduction illustrée au web sémantique : réalités et perspectives », organisé par le GFII le 13 décembre 2011. À l’issue de cette journée, le GFII a annoncé la création d’un groupe de travail consacré au sujet.
-
[18]
Une donnée libre est une donnée que l’on peut utiliser, modifier et rediffuser ; une donnée est ouverte lorsqu’elle est accessible techniquement, l’interopérabilité étant assurée par des standards.
-
[19]
« La donnée libre », Michèle Battisti, Actualités du droit de l’information (ADI), mars 2010 http://www.adbs.fr/c/c
-
[20]
« Licences libres et informations du secteur public », Michèle Battisti, ADI, juin 2010 http://www.adbs.fr/c/d
-
[21]
La mise à disposition ouverte des œuvres d e l’esprit, CSPLA, 2007 http://www.cspla.culture.gouv.fr/CONTENU/miseadiposouverterapp.pdf
-
[22]
Tim Berners-Lee, James Hendler, Ora Lassila. “The Semantic Web”, Scientific American, May 2001, p. 29-37.
-
[23]
Notamment, Manuel Zacklad. « Évaluation des systèmes d’organisation des connaissances », Les cahiers du numérique, 2010, vol.6, n°3, pp. 133-166.
-
[24]
Nous traitons ici exclusivement des ontologies définies au sens du web sémantique, basées sur les langages logiques tels qu’OWL.
-
[25]
François Rastier. « De la signification au sens. Pour une sémiotique sans ontologie », Texto!, juin-sept. 2003. http://www.revue-texto.net/Inedits/Rastier/Rastier_Semiotique-ontologie.html
-
[26]
On parle de formalité à propos des langages formels, c’est-à-dire des langages artificiels basés sur des termes figés.
-
[27]
Sémir Badir. Hjelmslev, Paris : Belles-Lettres, 2000.
-
[28]
Sémir Badir. « La hiérarchie sémiotique », dans Louis Hébert (dir.), Signo, Rimouski (Québec), 2006, http://www.signosemio.com/Hjelmslev/hier.asp
-
[29]
Roland Barthes. « Rhétorique de l’image » in : L’Obvie et l’Obtus. Essai s critiques III, Seuil, 1982, p. 25-42.
Les sens du web sémantique
1Comprendre. Le web sémantique n’est pas seulement un slogan. C’est un projet, voire une utopie, celle de pouvoir déléguer à la machine une partie de l’interprétation des ressources du Web. Or, parler d’interprétation, c’est parler du sens, du sens que l’on donne à ces ressources et sur lequel on se fonde pour les exploiter, les transformer, les transférer. Il convient, pour mieux cerner les enjeux et saisir de quoi il est vraiment question, de déterminer pour quelles raisons on recourt au sens et de définir ce qui est visé à travers cette notion de sémantique.
2Le web sémantique est aussi qualifié de web 3.0, cette numérotation le situant au sein des quatre générations du Web connus à ce jour.
3Le web 1.0 est le web dit documentaire, où les ressources sont publiées sans autre traitement que leur mise en forme et sans autre interactivité que l’activation des liens hypertextuels. Dans cette génération du Web, il n’existe pas de traitements informatiques prenant pour objet le document en s’inspirant d’informations particulières précisant son type, sa structure, ses termes ou concepts, etc. Si l’on veut appliquer un processus automatique, les seules données dont on dispose sont le contenu lui-même et des spécifications de format de publication. La principale limite rencontrée par cette approche est que les traitements effectués ne peuvent s’appuyer sur ce que l’on sait par ailleurs du contenu : le fait qu’il s’agisse d’un rapport et non d’une carte de visite, qu’il mentionne des concepts particuliers, qu’il suit des standards de mise en forme, etc. Autrement dit, le Web 1.0 fait ses traitements à l’aveugle, en ne prenant en compte que le format de codage des contenus, mais non la sémantique de ces derniers.
4L’idée est alors venue de pouvoir enrichir ces traitements d’une connaissance supplémentaire provenant du sens de ces contenus, afin de leur permettre d’être plus précis et performants. La question est alors de savoir comment apporter la connaissance et en imprégner les processus. Deux approches complémentaires apparaissent.
5Dans le premier cas, on considère que les utilisateurs font partie du processus documentaire et qu’on peut s’appuyer sur leurs connaissances et compétences. L’enjeu est alors de leur permettre d’ajouter des connaissances aux contenus grâce à leur compréhension et interprétation. Ce sera l’objectif du web 2.0, qu’on appelle également web contributif. Ainsi, un site de photos comme Flickr repose sur l’annotation rédigée par les internautes.
6Mais on peut également envisager les choses autrement. Plutôt que de mobiliser l’internaute, on équipe la machine. Plutôt que de se reposer sur l’interprétation humaine, on représente et explicite – de telle manière que les outils puissent s’en servir – tant les connaissances pertinentes dont on dispose que l’interprétation attendue des contenus. Ce sera l’objectif du web 3.0 que de réussir cette double tâche : à la fois représenter ces connaissances et interprétations et concevoir les outils pouvant les exploiter.
7Enfin, le paradigme de l’intelligence ambiante conduit à envisager le Web non comme un ensemble d’outils, mais plutôt comme des composants intégrés dans des dispositifs et objets de notre environnement. C’est le web 4.0, ou web symbiotique : les objets ambiants communiquent via des dispositifs web qu’ils internalisent en leur sein.
Quelle sémantique ?
8Si on veut représenter des connaissances, interpréter des contenus, quelle conception de la sémantique et du sens doit-on adopter ? Nous avons deux objectifs ou contraintes : d’une part, être capable d’expliciter le sens d’un contenu, d’autre part, rendre exploitable cette explication par un traitement informatique.
9Plusieurs approches sont possibles.
- Une approche psychologique, où le sens d’un terme est la représentation mentale qu’on en a. S’entendre sur une même chose revient à en avoir la même représentation mentale. On retrouve souvent cette approche dans les sciences cognitives, où le sens serait « dans la tête », comprendre le cerveau permettant alors de saisir ce qu’il pense.
- Une approche linguistique, où le sens d’un terme consiste dans sa paraphrase en d’autres termes. Cette approche se retrouve en linguistique, en sémiotique, notamment la sémiotique des cultures de F. Rastier, qui reprend le paradigme différentiel [1].
- Une approche ontologique, où le sens d’un terme repose sur l’objet qu’il désigne ou peut désigner. Cette approche représentationaliste renvoie à la contrainte d’avoir une conception de ce qui existe ou peut exister dans le monde pour comprendre ce que signifient les énoncés d’une langue.
- Une approche formaliste, que l’on doit en partie au Cercle de Vienne, qui soutient que le sens d’un terme ou d’un énoncé est sa forme logique, l’essentiel n’étant pas ce que désigne (ontologique) ou évoque (psychologique) ou paraphrase (linguistique) un énoncé, mais sa forme syntaxique. En particulier, cette forme syntaxique doit s’expliciter dans les formalismes de la logique mathématique si l’on veut avoir une expression qui reflète fidèlement la sémantique. Autrement dit, exprimer le sens d’un contenu revient à le traduire dans un formalisme logique.
Splendeurs et misères d’un Web formel
10Pour le dire de manière abrupte, le formalisme est une impasse comme paradigme mais s’avère fécond quand il est mobilisé de manière locale, dans des contextes particuliers et maîtrisés. C’est une impasse, car pour réussir dans l’absolu et dans tous les cas, il faudrait que la sémantique fût formelle dans sa nature même et qu’il n’y eût donc pas d’exception à la formalisation du sens. Or, il y a un conflit entre l’holisme du sens et le mécanisme de la syntaxe. Le sens d’un texte dépend de son contexte, le sens d’un paragraphe dépend aussi du texte dans lequel il s’intègre, le sens d’un mot du paragraphe qui le contient, etc. : le sens va du global au local, de la compréhension globale vers l’analyse. Or, le formalisme opère de manière inverse : le sens d’une formule logique se construit à partir du sens de ses parties, allant du local au global. Dans la formule p v q (p ou q), on sait calculer sa valeur de vérité à partir de celles de p et de q. Mais dans une phrase, il ne suffit pas de comprendre tous les mots pour en saisir le sens. Autrement dit, le fonctionnement du sens dans le cadre de la logique est opposé à son fonctionnement dans un contexte linguistique ou sémiotique. Il est donc impossible de réduire l’un à l’autre.
11Mais le formalisme peut être un outil très efficace pour caractériser un objet et les traitements qu’on peut lui appliquer. Par exemple, la notion de « typage » permet de définir un comportement propre à une catégorie d’objet, et la formalisation spécifie la nature et la portée de leur combinaison. C’est la raison pour laquelle la terminologie a évolué, passant insensiblement du web sémantique au web des données, voire au web des objets : autrement dit, le formalisme cesse d’être un paradigme pour devenir un outil permettant de spécifier la nature et le comportement des ressources du Web.
12Dans cette perspective, il convient, en fonction des domaines, de caractériser les objets considérés et de définir les formalismes adéquats pour les manipuler et les gérer. Cela conduit à une explosion des formats et des formalismes qui donne le vertige au néophyte mais aussi aux concepteurs des systèmes, car chaque domaine recèle ses spécificités, incompatibles avec celles des autres.
13C’est pourquoi un enjeu important pour l’avenir du web sémantique reste, outre la distribution des données, leur hétérogénéité. En lieu et place d’une formalisation homogénéisant les données, les efforts portent sur la représentation des différences et des calculs propres à celles-ci.
Pour conclure…
14Le web sémantique naît de la nécessité d’adjoindre des connaissances supplémentaires aux contenus pour améliorer leur traitement. De ce point de vue, il s’intègre en droit avec les autres perspectives du web 1.0 et 2.0. À condition cependant que le Web ne soit pas seulement composé d’applications s’échangeant des données sans utilisateurs, devenant ainsi une gigantesque base de données, mais permette à des utilisateurs d’intervenir en tant que sujets interprétants, complétant ainsi les traitements localisés mais affinés d’outils sémantiques. •
Comment représenter le sens pour les applications documentaires ?
Comment rendre compte de ce que nous faisons avec nos machines informatiques quand il ne s’agit pas seulement d’automatiser nos symbolismes algébriques issus des sciences mathématiques, mais de mécaniser la manipulation de symboles comme s’ils étaient algébriques (en congédiant leur signification) alors qu’ils ne le sont pas ?
1 - La formalisation logique permet de rendre calculables des contenus
Exemple :
Est-un (Voiture, Véhicule)
Possède (Voiture, Roue, 4)
Est-un (Ferrari, Voiture)
Un ordinateur pourra calculer qu’une Ferrari est un véhicule et qu’elle possède quatre roues. Le web sémantique cherchera à pouvoir confier à la machine l’inférence que la Ferrari est un véhicule, cette inférence étant possible et fiable car elle repose sur une formalisation logique des connaissances. Les termes comme « voiture », « véhicule » sont donc ici des concepts, des prédicats logiques qui sont déclarés comme tels à la machine, pour qu’elle les manipule et raisonne sur eux.
2 - La structuration documentaire manipule les contenus en respectant leur rédaction originale
Les attributs rendent les contenus manipulables parce qu’ils les contextualisent dans un emploi donné.
Exemple :
<definition>
Une <notion>voiture</notion>
est un véhicule à quatre roues.
</definition>
<exemple>
Une Ferrari est une voiture.
</exemple>
L’ordinateur pourra répondre à une requête telle que « Je voudrais une définition de la notion voiture » en présentant l’information :
Une voiture est un véhicule à quatre roues.
À ce niveau, la machine ne reconnaît que les balises (ce qui est entre chevrons, comme <definition>). Ce qu’il y a entre les balises, n’est pour la machine qu’une suite de caractères qu’elle ne peut manipuler que comme tels, sans y reconnaître des éléments particuliers, sinon par des analyses linguistiques fines, mais qui sont complexes et peu robustes : les balises ajoutées dans le contenu sont plus simples à gérer et à manipuler. En contrepartie, la machine répond à la question par la chaîne de caractères encadrée par la balise <definition> sans comprendre ce qu’elle signifie. En particulier, contrairement à la formalisation logique, « véhicule » n’est pas déclaré à la machine comme un concept ou prédicat logique. Mais ce n’est pas grave, car l’utilisateur, lui, peut le reconnaître et l’interpréter.
La machine sait utiliser jusqu’à un certain point les balises en XML. Mais pour des raisonnements plus fins, il faut formaliser ces balises, par exemple par des ontologies, pour permettre les inférences voulues. Bref, avoir une approche « web sémantique » sur les balises, balises que l’on introduit dans le cadre d’une approche « documentaire ».
Technologies et architecture du web de données
15Repérer. Vaste chantier en perpétuelle évolution depuis les débuts du Web, le web de données repose sur un ensemble de standards dont il est important d’au moins connaître la fonction. Visite guidée.
16Parmi les métaphores qui ont accompagné la naissance du Web, l’une des plus prégnantes est celle de la bibliothèque universelle. Le Web est alors perçu comme un gigantesque système documentaire où les pages sont des documents entre lesquels on navigue en suivant des liens et que l’on peut marquer d’un signet comme on le ferait dans un livre. Mais il perd vite ce statut purement documentaire. Sa première mutation sera due aux moteurs de recherche qui, pour permettre d’afficher leurs résultats, vont générer des pages dynamiquement à chaque requête et non forcément servir un document stocké. Le document devient calcul, et c’est le début de plusieurs mutations de cet espace documentaire. L’une d’entre elles est le web de données, qui repose sur l’architecture du Web pour interconnecter, non plus des bases documentaires, mais des bases de données.
17Lorsque l’on parle d’architecture du Web, on ne se réfère pas à l’objet Web que nous parcourons tous les jours, mais aux standards qui définissent l’infrastructure technologique dont il émerge. Pour aborder l’architecture des standards du Web, il faut d’abord connaître un peu ses architectes. En 1994, le projet WebCore du Cern (Organisation européenne pour la recherche nucléaire), où le Web est né, est transféré à l’Inria. Le Massachusetts Institute of Technology (MIT) lance alors avec l’Inria et l’université de Keio au Japon la création du World Wide Web Consortium, ou W3C, qui offre un cadre et des processus neutres pour la standardisation de l’architecture du Web.
18Pour bien comprendre les documents d’architecture, il faut avant tout savoir que le W3C utilise différents termes pour qualifier ses documents : un standard est appelé une « recommandation » et un document non normatif est appelé une « note ». Les recommandations commencent par être des « brouillons de travail » (working drafts), elles passent ensuite en « derniers appels » à commentaires (last call), puis elles deviennent des « recommandations candidates » (candidate recommendations) pour lesquelles on cherche notamment une preuve de concept dans des prototypes, et enfin elles passent au stade de « recommandations proposées » (proposed recommendations) qui attendent l’aval du directeur du W3C et du Technical Architecture Group (TAG).
URI, HTTP et HTML au cœur du Web originel
19Trois notions fondamentales sont à l’origine et au cœur de l’architecture du Web originel.
20La première de ces notions est l’URL [*] ou plus exactement l’URI. Ce dernier est un format d’identifiants uniques permettant de nommer et indiquer n’importe quelle ressource sur le Web. Si de plus cet identifiant donne un chemin d’accès pour obtenir une représentation de cette ressource, alors on parle d’URL, les fameuses adresses web que tout le monde connaît maintenant, même si à l’origine elles n’étaient pas destinées à être manipulées directement par les usagers; par exemple « http://www.inria.fr » est l’URL de la page d’accueil de l’Inria.
21La deuxième notion fondamentale est le protocole HTTP qui permet notamment, à partir d’une adresse URL, de demander une représentation de la ressource identifiée et localisée par cet URL et d’obtenir en retour soit les données de cette représentation, soit des codes d’erreur indiquant un problème rencontré, comme la célèbre erreur 404 qui indique que la page demandée n’a pas été trouvée.
22La troisième notion fondamentale est HTML, le langage de balisage utilisé pour représenter, stocker, mettre en forme et publier les pages web.
23Rappeler ces trois notions fondamentales du Web est d’autant plus important que le web de données repose lui aussi sur les deux premières notions pour identifier le sujet des données échangées (URI) et transférer les données (HTTP).
24Mêmes mécanismes de nommage et de communication donc, mais le langage de balisage ne peut plus être identique puisqu’il ne s’agit plus d’échanger des documents destinés à être immédiatement visualisés par un utilisateur, mais des données.
25Historiquement, les premiers changements du langage ont commencé par la bonne pratique de séparer le contenu et la forme dans les pages, notamment avec le langage de feuilles de style CSS (1996 [2]) qui, pour les pages web, permet d’extraire et de factoriser la mise en forme pour ne laisser dans le HTML que la structure documentaire. Cette tendance à la structuration va réellement s’incarner et prendre son essor dans une nouvelle famille de langages quand, en 1998, est émise la première recommandation de XML. Là où HTML proposait un langage textuel d’échange de documents dits semi-structurés, XML propose un format textuel d’échange de documents et données structurés. Ce nouveau standard permet de définir des langages de balisage pour échanger, notamment sur le Web, des données structurées en arbres.
26Moyennant le respect de règles simples, XML permet à chacun de définir sa structure, son balisage, et de les échanger dans un format textuel utilisable par les machines et lisible pour l’humain si besoin est. XML offre un format non propriétaire et ouvert assurant l’interopérabilité, la portabilité et l’extensibilité des données et de leur structure. De nombreuses technologies ont été développées autour de et avec XML, et cette « galaxie » fournit aujourd’hui un format pour de multiples langages, mais aussi des moyens de validation, d’interrogation et de transformation. XML facilite aussi la réutilisation, la migration, la pérennité, et l’indépendance aux médias et au domaine.
27Les URI et XML vont alors fournir les fondations de la nouvelle pile des standards du web sémantique, représentée en figure 1 et que nous allons parcourir.
RDF pour décrire les données, SparQL pour les retrouver
28Dès la première conférence sur le Web [3], Tim Berners-Lee explique que réduire le Web à un espace documentaire avec des liens entre les documents, c’est ne prendre en considération qu’un seul plan de la problématique. L’utilisateur ne parcourt pas le Web de façon aléatoire, il mobilise les modèles qu’il a du monde. Si on arrive à comprendre ces modèles, à les représenter même partiellement et à les lier à des ressources, on peut alors espérer améliorer nos interactions avec le Web. C’est ce que le W3C appelle le web sémantique, et il faudra dix ans pour en concevoir les standards.
29Au-dessus de ce web structuré, on construit donc un web de données liées grâce au langage RDF (1999, 2004), première brique des standards du web sémantique qui recouvre à la fois un modèle et plusieurs syntaxes, dont une en XML, pour publier des données à propos de tout et n’importe quoi sur le Web. Il permet à quiconque de décrire des ressources, notamment du Web, comme par exemple l’auteur, la date de création, le titre et les droits de diffusion d’un film. RDF est au web de données ce que HTML était au web documentaire dans sa métaphore initiale : le langage dans lequel on décrit, représente et relie des ressources à échanger sur le Web. En jouant sur les mots, on peut dire qu’en lieu et place du langage hypertexte HTML, le langage RDF est un langage « hyper data cube » [4].
Les principales recommandations
Les principales recommandations
30RDF respecte l’architecture du Web et notamment réutilise le mécanisme des URI pour identifier les ressources décrites et déclarer explicitement toute relation entre elles. De telles déclarations peuvent provenir de n’importe quelle source sur le Web et être fusionnées avec d’autres, ouvrant ainsi des perspectives d’intégration de données à l’échelle mondiale. Utilisant et réutilisant les URI, n’importe qui peut dire n’importe quoi sur n’importe quel sujet ou ajouter à ce qui a déjà été dit ; et ainsi de suite. RDF n’offre pas seulement un modèle de graphe pour publier et lier des données sur le Web, il fournit également un modèle de données partagé servant de fondation à d’autres standards construits au-dessus de lui pour permettre l’interrogation (SparQL), l’intégration (RDFa et GRDDL) et le raisonnement (RDFS, OWL, 2004) sur les données. On peut ainsi tisser un graphe mondial distribué où chaque n œud, chaque valeur et chaque arc peut être typé pour mieux en fixer la signification et identifier les traitements pouvant lui être appliqués.
31Le protocole HTTP est aussi exploité dans cette architecture du web de données et notamment à travers deux aspects importants : les codes de retour du protocole qualifiant le résultat d’une requête et le mécanisme de négociation de contenus (coneg).
32Les codes de retour permettent de faire la différence entre des ressources informationnelles et non informationnelles. Si un URL identifie une image de la Tour Eiffel sur le Web, on obtient normalement, en réponse à une requête, une copie de cette image accompagnée du code HTTP 200 (OK) indiquant que tout s’est bien passé. Dans le monde du web de données, on peut en déduire que l’URL identifie une ressource informationnelle disponible sur le Web. Si maintenant un URL identifie la Tour Eiffel en elle-même, on obtiendra classiquement, en réponse à la requête, un code de redirection HTTP 303 (see other) accompagné d’un autre URL que l’on nous invite à visiter. On en déduira que l’URL identifie une ressource non informationnelle qui n’est pas disponible sur le Web (impossible de faire passer la Tour Eiffel à travers le Web) mais que l’on peut trouver des données décrivant cette ressource à l’URL indiqué en retour. En d’autres termes, on nous indique que l’objet existe mais qu’il n’est pas disponible sur le Web et qu’une ressource informationnelle le décrit ailleurs.
Les sigles utilisés dans le dossier
CSS : Cascading Style Sheets
Foaf : Friend of a friend
GRDDL : Gleaning Resource Descriptions from Dialects of Languages
HTML : HyperText Markup Language
HTTP : HyperText Transfer Protocol
ISBD : International Standard Bibliographic Description
Lod : Linked Open Data
Lode : Linked Open Descriptions of Events
Marc : MAchine-Readable Cataloging
Owl : Web Ontology Language
RDA : Resource Description and Access
RDF : Resource Description Framework
RDFa : Resource Description Framework – in – attributes
RDFS : RDF Schema
Rif : Rule Interchange Format
Skos : Simple Knowledge Organization System
SparQL : Protocol and RDF Query Language
URI : Universal Resource Identifier
URL : Uniform Resource Locator
W3C : World Wide Web Consortium
XML : Extensible Markup Language •
33La description d’une ressource obtenue à la suite d’un accès normal ou d’une redirection peut de plus faire l’objet d’une négociation de contenu. Ce mécanisme permet d’adapter, au profil du client en faisant la demande, la représentation d’une ressource servie. Ainsi, pour un même URL, un navigateur web pourra se voir servir une version HTML en français ou en anglais en fonction de sa configuration tandis qu’un autre applicatif se verra proposer une version RDF qu’il aura la possibilité d’intégrer à sa propre base de données. Avec les mécanismes de redirection et de négociation de contenu, on voit à quel point l’architecture du web de données est imbriquée dans celle du Web classique.
34Au-dessus de RDF, XML, URI et HTTP, la recommandation SparQL fournit trois outils importants pour l’échange des données : un langage de requête sur des graphes RDF permettant de spécifier le type de données recherchées ; un format XML pour représenter les résultats d’une requête ; un protocole pour soumettre une requête à un serveur distant et recevoir les résultats, notamment à travers le protocole HTTP.
Ajoutons des schémas avec RDFS et OWL…
35Reposant sur les deux premières briques que sont RDF et SPARQL, le web de données peut être vu comme la première phase de déploiement massif du web sémantique. En effet, doté d’un modèle de données (RDF) et d’un langage d’interrogation (SparQL), il peut déjà être mis en œuvre (comme le montre l’initiative du LOD, qui promeut la mise en ligne de données libres), en utilisant essentiellement URI, HTTP, RDF et (si possible) SparQL et en respectant un ensemble de règles simples connu sous le nom des 5 étoiles :
* les données sont sur le Web sous licence libre* * idem + les données sont explicites et structurées* * * idem + les données sont dans un format non propriétaire* * * * idem + des URL sont utilisés pour identifier sujets et objets* * * * * idem + les données sont liées à d’autres données
37Afin de ne pas découpler artificiellement les contenus du web sémantique de ceux du Web classique et parce que beaucoup de données sont actuellement enterrées dans des pages web nécessitant une réextraction pour quiconque veut les réutiliser, RDF est complété par deux recommandations :
- RDFa qui est une syntaxe pour injecter du RDF dans une page web, de manière à favoriser l’extraction de données présentes dans une page (par exemple indiquer où se trouvent les données « titre » et « auteur » pour un livre dans une page de catalogue).
- GRDDL qui est une approche duale permettant d’indiquer dans un document XML ou XHTML une transformation qui, appliquée au document, en extrait les données en RDF.
38Le premier niveau dit des schémas légers est celui de RDFS, qui permet de déclarer et de décrire les types de ressources manipulées (appelées classes, comme par exemple les livres, les films, les personnes, etc.) et les types de relation entre ces ressources (appelées propriétés, comme par exemple « a pour auteur », « a pour acteur », « a pour titre », etc.). Ainsi RDFS nous offre la possibilité de définir des vocabulaires utilisés dans les graphes RDF et d’en nommer les primitives avec des URI : nommer les classes de ressources existantes ; nommer les types de relations existant entre les instances de ces classes et donner leurs signatures, à savoir le type de ressources qu’elles connectent ; organiser ces types dans des hiérarchies. On peut alors utiliser ces signatures et les hiérarchies de types de ressources et de relations pour automatiser des déductions, par exemple déduire qu’une ressource du type « roman » est aussi du type « livre ». Comme il est possible de fournir une adresse URI pour les types, RDFS permet de déclarer le squelette taxonomique d’un schéma dans un langage et avec des identifiants universels échangeables et réutilisables, de façon à assurer l’interopérabilité des systèmes.
39Au-dessus de RDFS, la recommandation OWL est une extension en trois fragments d’expressivité croissante : OWL Lite, OWL DL et OWL Full. Les deux premières couches de l’extension sont basées sur une famille de langages appelée les logiques de description, qui rendent possibles des déductions supplémentaires telles que la vérification de la cohérence d’un schéma, la classification automatique des types afin de générer des hiérarchies, ou l’identification automatique du type d’une ressource basée sur ses propriétés. OWL permet la définition des classes en énumérant leur contenu ou par union, intersection, complément et disjonction avec d’autres classes. Il permet également la caractérisation des propriétés (restriction de leur valeur ou de leur cardinalité) et la spécification de leurs caractéristiques algébriques (symétrique, transitive, fonctionnelle, fonctionnelle symétrique, propriété inverse). Enfin, OWL fournit des primitives pour la gestion des équivalences entre différents schémas et entre les différentes versions d’un schéma. En regard de RDFS et OWL, notons aussi Skos (2009) qui est lui-même un vocabulaire RDF pour représenter, partager et lier sur le web des systèmes d’organisation des connaissances plus terminologiques tels que les thésaurus, lexiques, et systèmes d’index.
40La dernière brique recommandée dans l’architecture du web sémantique est la norme RIF (Rule Interchange Format) qui sert à échanger des règles d’inférence sur le Web et, en particulier, sur le web sémantique. Là où OWL adopte une approche et une notation logiques, RIF propose de représenter et d’échanger des connaissances de déduction sous la forme de règles de production : « SI une hypothèse est vraie, ALORS une conclusion peut être ajoutée ». Par exemple, si une personne a écrit une thèse sur le séquençage du génome alors cette personne peut être rangée dans la classe des docteurs et on peut ajouter la génétique parmi ses centres d’intérêt. RIF se compose aussi de plusieurs langages avec différentes expressivités (Core, BLD, PRD).
41In fine, la clé de voûte de l’architecture du web de données est la même que celle du Web classique : le standard des URI. Cependant, à la différence du web documentaire où les relations se tissent entre des ancres dans les documents hypertextes, les relations sont des liens typés (identifiés par des URI) entre des ressources quelconques (elles aussi identifiées par des URI) sur le web de données. En reposant sur le nommage par des URI, l’échange par HTTP, RDF comme modèle de graphe de descriptions et de liens et des schémas partagés avec ces mêmes standards, les recommandations du web sémantique dessinent une architecture informatique pour l’interconnexion universelle de sources de données. Le déploiement actuel de la galaxie RDF est un fait historique pour le domaine de la représentation des connaissances. En effet, bien que de nombreux langages de représentation des connaissances préexistaient à RDF lorsque celui-ci a commencé à être spécifié en 1998, aucun d’entre eux n’avait atteint son niveau de visibilité qu’il connut dans les dix années qui suivirent.
Des appellations différentes pour de multiples facettes
42Ce qui rend parfois difficile l’abord du domaine, c’est que l’initiative dans laquelle il s’inscrit est présentée sous des appellations différentes qui semblent privilégier, pour chacune d’elles, un aspect particulier de l’architecture globale :
- le « web de données » (web of data) insiste sur la possibilité qui nous est offerte d’ouvrir les silos de données de toutes tailles, depuis l’application individuelle de notre carnet d’adresses jusqu’aux immenses bases de génomique, et de les échanger, de les relier, de les mélanger selon nos besoins ;
- l’expression « données ouvertes liées » (linked open data) met l’accent sur l’opportunité d’exploiter des données ouvertes dans nos applications et rappelle qu’une grande valeur ajoutée réside dans l’utilisation et la réutilisation des URI pour joindre des assertions de différentes provenances mais portant sur un même sujet ;
- le « gigantesque graphe global » (Global Giant Graph) remet en perspective ces milliers de liens entre données distribués sur le Web et le fait que, à travers les points de jointure que sont les URI, la structure de données qu’ils tissent est un graphe d’envergure mondiale ;
- enfin, le « web sémantique » (semantic web) met en avant la possibilité d’échanger les schémas de nos données et la sémantique associée afin d’enrichir la gamme des traitements automatiques qui peuvent leur être appliqués.
RDF, la grammaire universelle des machines
43Formaliser. Lisible par l’humain, une page web peut se révéler désespérément muette pour une machine. Grâce à un formalisme de type RDF, différents systèmes peuvent directement échanger et traiter les informations. Et le web prend alors tout son sens.
44Le Web repose sur le principe de l’hypertexte, soit la possibilité de relier des documents par un lien. Or, HTML [*], le langage utilisé pour encoder une page web, a pour vocation de décrire la structure du message, c’est-à-dire le rôle joué par chaque portion d’information au sein de la page et non le contenu du message, c’est-à-dire le sens de chaque portion d’information.
45Les technologies du web sémantique donnent les moyens de dépasser cette limite en étendant le principe de l’hypertexte à l’encodage de la logique des messages partagés sur le réseau et ainsi d’en permettre la compréhension par les machines. Concrètement, il s’agit de pouvoir exprimer sur le Web la donnée la plus élémentaire : la nature de la relation qui unit deux entités ou aspects du monde réel. Cela peut concerner aussi bien une chose ou un être vivant qu’une notion.
Une organisation logique de l’information
46Afin de permettre l’échange de données entre les humains et les machines et entre les machines elles-mêmes, il est nécessaire de disposer d’un formalisme, l’équivalent de la grammaire dans le langage humain, à même d’en assurer l’interopérabilité sur le Web. C’est précisément le but de RDF (Resource Description Framework), dont le développement et la normalisation sont assurés par le W3C depuis 1997. RDF n’est donc pas un format de fichiers, un langage informatique ou un schéma XML mais un modèle ou un cadre, c’est-à-dire une organisation théorique et logique de l’information.
47Dans le langage humain, les mots jouent le rôle d’identifiants partagés par un groupe pour désigner des choses. Dans le RDF, ce rôle est dévolu aux URI (Uniform Resource Identifier). Ainsi, chaque entité manipulée par une machine est désignée par un URI, ce qui en fait une ressource d’après les principes de l’architecture du Web. Ce mécanisme évite les ambiguïtés inhérentes au langage humain, puisqu’un URI ne peut identifier qu’une seule ressource au sein d’un réseau, physique comme le Web ou virtuel.
48La description d’une ressource selon le modèle RDF suit les principes de la structure grammaticale la plus élémentaire du langage humain, la phrase simple. Ainsi, chaque donnée ou assertion est encodée selon la structure « Sujet-Prédicat-Objet » d’où le nom de triplet :
- le sujet désigne la ressource sur laquelle porte l’assertion ;
- le prédicat indique la nature de la relation sous la forme d’une ressource particulière définie dans une ontologie ;
- l’objet peut être une ressource, désignant alors la ressource liée, ou une chaîne de caractères exprimant, dans ce cas, une caractéristique du sujet.
Souple et évolutif
49Dans la mesure où chaque membre du triplet est une ressource qui peut elle-même être le sujet ou l’objet d’autres assertions, la somme des triplets forme un graphe d’où l’expression « Giant Global Graph » pour désigner la somme de l’ensemble des triplets disponibles sur le Web. L’intérêt du modèle de graphe réside dans sa souplesse et son évolutivité, puisqu’il est possible d’exprimer une assertion sur une ressource décrite sur un autre serveur sur le Web de manière indépendante des autres assertions.
50Pour inscrire le langage naturel sur un support en vue de son partage de façon asynchrone, nous disposons de l’écriture, système graphique d’expression du langage. De même, pour une machine, il est utile d’exprimer « concrètement » les déclarations. Ainsi, tout en respectant les principes de RDF, les assertions peuvent être « écrites » selon plusieurs syntaxes : RDF/XML, qui est pour le moment la seule à faire l’objet d’une recommandation au W3C, N3, N-triples ou Turtle. •
Focus. Les enjeux de l’URI
51Nommer. Pour pouvoir exposer, relier, exploiter, encore fautil pouvoir identifier sans ambiguïté les ressources du web de données. C’est justement la fonction des URI.
52Les URI [*] sont un fondement du web sémantique, en particulier les URI de type http, plus connus pour des raisons historiques sous le nom d’URL. En fait, ce sigle ne désigne pas uniquement les URI de type HTTP et ne devrait plus être employé selon les recommandations en vigueur depuis 2005 [5].
Identifier, décrire, relier
53Un URI est, comme son nom l’indique, un « identifiant de ressource ». Une ressource pouvant être absolument n’importe quoi, on peut donc traduire URI par « identifiant d’une chose » réelle, imaginaire, concrète, abstraite, individuelle ou générale : une personne, une organisation, un lieu, un événement, ou encore un concept dans un vocabulaire. Ainsi identifiée, la « chose » peut être décrite formellement et mise en relation avec d’autres ressources identifiées de même, en utilisant les logiques de description et en particulier la famille des standards RDF. Ces descriptions peuvent utiliser des syntaxes et formats variés, et ne préjugent en rien de l’utilisation fonctionnelle de la connaissance ainsi constituée.
Accéder aux représentations
54Si l’URI est de type HTTP, il constitue alors un moyen d’accès à des représentations de la chose identifiée. Cet accès peut utiliser l’interface familière du navigateur web, ou des requêtes effectuées par des applications. La représentation obtenue dépendra des paramètres du dialogue client-serveur, à travers un processus appelé négociation de contenu. Pour un client de type navigateur, on obtiendra une page HTML dont la langue ou les options d’accessibilité dépendent des préférences du client, par exemple une version en français pour une application mobile ne supportant pas les images. Un client demandant des données structurées au format RDF/ XML obtiendra une description dans ce format si elle existe. Dans l’architecture du web sémantique, ce dernier est la représentation de référence, une description formelle de ce qui est identifié par l’URI.
55On voit bien ici une différence qualitative importante avec le concept originel de l’URL qui exprime la localisation d’un document accessible en ligne (page HTML, document PDF, image JPG, etc.). Dans ce Web 1.0, le document est premier et en principe pérenne, on y accède par une adresse comme dans une bibliothèque. L’URL est typiquement moins stable que le document que l’on déplace au gré des réorganisations des sites. Dans le web sémantique, c’est au contraire l’entité identifiée par son URI qui est pérenne, le contenu de la description pouvant varier avec le temps et les détails du dialogue client-serveur. Le document à contenu fixe devient un cas particulier.
Pérennité, stabilité et autorité
56Dans le monde ouvert du web sémantique, n’importe qui peut dire n’importe quoi sur n’importe quel sujet, mais c’est le propriétaire du nom de domaine qui contrôle la description de l’entité accessible via son URI. Si les URI du web sémantique n’ont pas toujours été au départ définis par des sources reconnues, et sont encore trop souvent publiés sans garantie de stabilité ni de pérennité, on voit aujourd’hui de plus en plus d’organismes qui font autorité commencer à publier des URI de référence pour les entités de leur domaine d’expertise : les administrations pour leurs services et textes de référence, les bibliothèques pour leurs fonds et vocabulaires, les biologistes pour les espèces vivantes, etc.
57Un vaste chantier qui ne fait que commencer ! •
Focus. Microformats, RDFa, microdata : représenter le contenu d’une page web
58Signifier. Pour profiter de l’énorme masse d’informations contenues dans des pages web, des solutions se sont développées pour ajouter simplement du sens à des documents HTML jusqu’à présent peu parlants… aux machines et autres systèmes de traitement de l’information.
59Le but des technologies du web sémantique est de partager et lier des données structurées sur le Web. Or, la quasi majorité des données y sont mises à disposition à travers des « pages » dont le contenu est, en l’état, complexe à traiter automatiquement. En réponse à ce constat sont apparues, ces dernières années, plusieurs solutions visant à introduire directement dans le corps de la page des informations cachées aux utilisateurs, qui permettent de représenter le message de façon à simplifier son exploitation par les machines. Elles laissent entrevoir à terme l’introduction d’une masse exceptionnelle de données structurées dans le web de données et leur mise en relation avec les données nativement exprimées en RDF [*].
La simplicité des microformats
60Issus d’une communauté indépendante en ligne, les microformats [6] sont apparus les premiers. Ils se caractérisent par leur simplicité et leur compatibilité avec toutes les versions de HTML, puisqu’ils reposent sur l’idée d’une normalisation de la valeur des attributs HTML « class » et « rel » pour décrire explicitement la sémantique du message au sein du code. La communauté a « normalisé » des microformats pour exprimer les données d’une carte de visite ou d’un CV, des recettes de cuisine, des événements, des coordonnées géographiques, etc. Or, en réutilisant des attributs HTML, les microformats les détournent de leurs usages initiaux, confondant alors structure de la page web et structure du message. De plus, la mise au point et le succès d’un nouveau microformat dépendent de son acceptation par la communauté et de son adoption par un grand nombre d’acteurs.
La rencontre avec le web sémantique
61Dans la mesure où la volonté de représenter les données contenues dans une page web entre en résonance avec les objectifs du web sémantique, ces deux mondes étaient faits pour se rencontrer. Initiés en 2004 et aboutis sous la forme d’une recommandation en 2008 [7], les travaux sur RDFa (RDF – in – attributes) visent à exprimer des triplets RDF directement au sein de la page web encodée en HTML. Pour ce faire, RDFa s’appuie sur des attributs HTML existants (« rel », « rev », « content », « href », « src »), introduit de nouveaux attributs (« about », « property », « ressource », « datatype », « typeOf ») et définit des règles de traitement pour extraire des triplets suivant l’agencement de ces attributs au sein de la page. Son grand avantage réside dans sa généricité, puisqu’il est possible de réutiliser n’importe quelle ressource déjà exprimée sur le Web, ainsi que n’importe quelle ontologie ou vocabulaire RDF.
62Néanmoins, la généricité de RDFa s’est faite au détriment de sa simplicité et son implémentation concrète s’est avérée complexe. Il est de plus limité à XHTML, version XML de HTML. Pour dépasser ces limites, deux solutions concurrentes sont en discussion au W3C : les microdata [8] portés par le groupe de travail HTML5, et RDFa 1.1 [9] porté par le groupe de travail RDFa. La différence entre les deux spécifications repose essentiellement sur les rapports plus ou moins proches avec le monde RDF.
63Malgré ce paysage instable, des acteurs majeurs du Web ont lancé plusieurs initiatives (Google Rich Snippet, Open Graph Protocol, Schema.org) qui démontrent l’intérêt de ces syntaxes pour améliorer les interactions entre leurs propres services et le reste du Web. Néanmoins, la multiplication de syntaxes, de vocabulaires souvent spécifiques à chaque initiative et leur incompatibilité mutuelle peuvent poser problème. C’est pourquoi des discussions sont en cours au W3C pour faire converger ou au moins rendre interopérables ces différentes solutions. •
Focus. Owl, un « chouette » langage pour représenter des ontologies
64Représenter. Dans le contexte du web sémantique, les ontologies fournissent le vocabulaire propre à un domaine et fixent – avec un degré de formalisation variable – le sens des concepts et des relations entre ceux-ci. RDFS, et mieux encore Owl, permettent de formaliser ces ontologies.
65Exprimer de la connaissance sur le Web est l’ambition du web sémantique. Au-delà de ce simple mot d’ordre, diffuser des ontologies sur le Web est le moyen de permettre à d’autres de se les approprier, de les étendre et de les réutiliser. Le W3C a standardisé au fil du temps différents langages, d’expressivité (et de complexité) croissante, pour représenter et publier ces ontologies.
66Le langage RDF Schema (RDFS) [*] a tout d’abord été développé pour étendre RDF en décrivant plus précisément les ressources utilisées pour étiqueter les graphes. Pour cela, il fournit un mécanisme permettant de spécifier les classes dont les instances sont des ressources, comme les propriétés.
67RDFS ne fournissant que des mécanismes très primitifs pour spécifier ces classes, Owl permet de contraindre plus précisément leurs descriptions (en les décrivant comme union, intersection, complémentaire d’autres descriptions ou comme l’ensemble d’un certain nombre d’individus), des domaines de relations (en spécifiant le type de leurs valeurs) ou des relations (en les déclarant transitives, symétriques ou en spécifiant leur inverse).
68En 2009, une nouvelle version du langage Owl intitulée Owl2 ajoute de nouveaux constructeurs tels que la possibilité de construire des chaînes de propriétés ou d’introduire des clés. De plus, Owl2 généralise la notion de profils (EL, QL, RL) correspondant à des sous-ensembles pour lesquels la complexité des raisonnements est bien maitrisée.
Des ontologies pour tous les goûts
69Au delà des langages de représentation, un certain nombre d’ontologies, généralement petites, se sont imposées pour couvrir à peu près tous les domaines : de la description d’un profil utilisateur (Foaf) à son activité sur un réseau social (OGP) ou sur un système documentaire collaboratif (Sioc) ; de la notice bibliographique (DublinCore) à la description de produits (GoodRelations), des actualités (rNews) ou des événements (Lode) ; de la culture (Cidoc) aux sciences de la vie et à la médecine (UMLS).
70La multiplication des ontologies impose leur catalogage. Plusieurs portails sont ainsi apparus pour référencer ces ontologies et fournir des exemples d’utilisation. Signalons à ce stade deux initiatives intéressantes : le vocabulaire Voaf qui permet de décrire les dépendances entre les ontologies du web sémantique et le jeu de données Lov [10] associé ; et le service prefix.cc qui permet de trouver le vocabulaire le plus populaire pour un préfixe donné. À terme, l’objectif est de pouvoir trouver automatiquement quelle ontologie est à la fois largement utilisée et couvre au mieux un besoin donné. Un tel service est en cours de développement dans le projet Datalift [11].
L’Ontologie rêvée par les moteurs de recherche
71Le 2 juin 2011, les trois plus gros moteurs de recherche du Web (Google, Yahoo!, Bing) ont conjointement annoncé la sortie de schema.org, un vocabulaire général pour structurer les données des pages web. Cette ontologie est tantôt perçue comme la reconnaissance de l’utilité des technologies sémantiques pour l’indexation des ressources documentaires et leur adoption par les plus grands acteurs du Web, ou comme l’échec de la construction d’ontologies diverses aux dépens d’une seule ontologie monolithique, développée secrètement et sans consensus, pour ne refléter au final qu’une vue parcellaire et biaisée des connaissances. •
Focus. SparQL et la recherche dans le web de données
72Interroger. Disposer de vastes réservoirs de données ne suffit pas, encore faut-il pouvoir en extraire les bonnes informations. C’est ce que permet SparQL, la preuve en exemple.
73Le langage de requête SparQL [*] est à RDF ce que SQL est aux bases de données relationnelles. Comme l’atome de connaissance en RDF est le triplet, SparQL permet de spécifier des patrons de graphes recherchés sous la forme de triplets (ressource, propriété, valeur). Ce patron de recherche est ensuite utilisé par des algorithmes d’appariement qui recherchent dans les bases de triplets toutes les occurrences de ce graphe cible.
74Le format XML des résultats d’une requête SparQL permet non seulement de lister les résultats obtenus par appariement mais aussi de documenter des erreurs en cas d’échec. Le protocole SparQL spécifie le service web permettant de soumettre une requête à un serveur distant et de recevoir les résultats, notamment à travers le protocole HTTP. La recommandation SparQL comprend un langage de requête, un format de résultat et un protocole pour l’accès distant aux bases de triplets sur le web (triple stores). Elle couvre donc toutes les étapes d’accès aux données du web sémantique.
75Voyons un exemple de requête courante en SparQL : trouver tous les adultes connus d’une personne ayant pour nom « Gandon ».
1. prefix foaf:< http://xmlns.com/foaf/0.1/ >2. select ?y where {3. ?x foaf:name “Gandon”.4. ?x foaf:knows ?y5. ?y foaf:age ?age6. filter (xsd:integer(?age) >= 18)7. }
77La ligne 1 indique quel vocabulaire est utilisé pour formuler la requête, ici Foaf (Friend of a friend), un schéma pour décrire les personnes et leur réseau d’accointances.
78La ligne 2 indique que c’est une requête de sélection de valeurs et que les valeurs à renvoyer en résultat sont celles prises par la variable « ?y ».
79La ligne 3 indique qu’un premier arc du graphe recherché oblige à considérer uniquement les ressources (représentées par la variable « ?x ») qui ont pour nom (au sens de Foaf) la chaîne de caractères « Gandon ».
80La ligne 4 indique un deuxième arc du graphe recherché qui oblige à ne considérer dans un second temps que les ressources (représentées par la variable « ?y ») qui sont connues de « ?x ». La ligne 5 ajoute un arc obligeant à trouver l’âge de « ?y » et la ligne 6 est un filtre qui s’assure que la valeur de l’âge est supérieure ou égale à 18.
81Ainsi, outre le motif de graphe recherché, spécifié des lignes 2 à 5, SPARQL fournit aussi des filtres (ligne 6) avec notamment des opérateurs de comparaison, arithmétiques et booléens usuels.
82La requête de sélection (clause select) est très courante, mais trois autres clauses sont disponibles. La clause ask permet de demander simplement s’il existe au moins une réponse sans retourner de résultat détaillé. La clause describe fournit la description d’une ressource à partir de son URI et permet, notamment, de découvrir de nouvelles descriptions et schémas sans aucune connaissance a priori. Enfin, la clause construct sert à construire un nouveau graphe RDF pour chaque résultat trouvé, et produit en retour le graphe RDF obtenu par l’union de ces constructions. Ce qui est intéressant pour la migration de données puisque l’on peut ainsi spécifier le graphe sélectionné (clause where) avec le schéma d’une base source et spécifier le graphe construit (clause construct) avec le schéma d ‘une base cible.
83Notons enfin que la nouvelle recommandation SparQL 1.1 est en cours de spécification. Elle reste entièrement compatible avec SparQL 1.0 mais propose de nouveaux filtres et d’importantes extensions : des fonctions d’agrégation (exemple : grouper des résultats), des opérateurs de négation, la possibilité de faire des requêtes emboîtées, etc. Plus important encore, cette nouvelle version permet des requêtes d’ajout, de modification et d’effacement, et ouvre donc le web de données en écriture. •
Les moteurs de recherche profitent aussi de la sémantique
84Rechercher. Le web de données représente également une évolution pour les moteurs de recherche, depuis trop longtemps obnubilés par leur algorithme d’indexation du texte intégral. Illustration par le cas concret de la plate-forme de recherche Isidore.
85Le moteur de recherche est aujourd’hui présent à tous les niveaux du système d’information de l’entreprise (SIE) : de l’intranet au Web, en passant par les applications de gestion de bases de données. Il est cependant parfois marginalisé, voire peu valorisé, dans les interfaces hommes-machines. Pire, l’éternelle présentation des résultats « en liste » paginée ? qui reste souvent le parent pauvre de la réflexion ergonomique d’un tel outil – ne favorise plus l’accès aux informations des documents, peu ou pas visibles sous cette forme. Cela est en partie dû à l’histoire du Web et à son impact sur nos pratiques. L’évolution du moteur de recherche est intimement liée aux documents qu’il indexe et aux méthodes qu’il utilise pour proposer aux utilisateurs des résultats de recherche « toujours plus pertinents ». Dans mon approche, je laisserai de côté le moteur du SIE, plus spécialisé et répondant à des besoins particuliers, afin de faire un peu de prospective sur les gains potentiels, pour les moteurs de recherche, du développement du web de données.
Le modèle du moteur « documentaire »
86L’invention du Web et son expansion rapide, dans les années quatre-vingt dix, a vu l’émergence du moteur de recherche « documentaire » qui permet de trouver des documents, au sens de fichiers individualisés. Ces documents, qui ont été placés « dans le Web », sont enchâssés dans les pages HTML [*] et parfois reliés entre eux selon les principes de l’hypertexte. Ainsi, en rupture avec les fonctions de recherche présentes dans les bases de données traditionnelles, travaillant principalement sur de l’information structurée, les outils de recherche ont affronté un Everest : trouver de l’information dans un monde mixte ? à la fois structuré (métadonnées) et non structuré (texte intégral) ? et utilisant une multitude de formats. Pourtant, la plupart des documents numériques sont structurés. Ouverte ou pas, leur structuration s’appuie le plus souvent sur XML pour les documents textuels et sur des formats de codage pour les documents multimédias qui embarquent eux aussi des métadonnées structurées (par exemple celles du International Press Telecommunications Council (IPTC) pour les images). Cette structuration donne un cadre technique aux documents afin de les rendre exploitables par des applications.
87Si la structuration technique d’un document textuel peut être utilisée pour faire des traitements comme des conversions ou des mises en page, nous restons là dans une utilisation à vocation informatique des structures des documents qui trouvent rapidement leurs limites pour une utilisation par un moteur de recherche devant répondre à des besoins de plus en plus sémantiques. Structurer un document sur le plan sémantique implique l’utilisation de normalisations et de référentiels communs, comme c’est le cas pour la structuration technique. Les professionnels de l’information et les éditeurs de logiciels ont traduit sous la forme de DTD (Document Type Definition), puis de schémas XML, les besoins de structuration des producteurs d’informations. Mais les outils de recherche ont peu utilisé cette structuration pour améliorer leurs performances, du moins en apparence et sans doute en réaction à la complexité du Web faisant intervenir divers formats. Le choix de faire confiance au « tout algorithmique » pour indexer le texte intégral a détourné l’attention des documents pouvant être structurés à la fois sur le plan technique, sur le plan documentaire ? par la mise en place ou l’extraction de métadonnées ? et sur le plan sémantique grâce à l’introduction des principes du web sémantique proposés par le W3C. Ainsi, tous les documents allaient être consommés de la même façon par les moteurs de recherche généralistes.
Isidore crée un accès unifié
88Le Web évolue, il devient de plus en plus hétérogène et la mise en place du web de données en est la dernière grande évolution. Le Web est non seulement le support des sites mais aussi un espace (au sens d’environnement de stockage, d’édition et de diffusion des données) dans lequel se construisent des territoires pour y stocker à la fois des documents non structurés sémantiquement et des documents contenant une information « structurée », c’est-à-dire une proposition de qualification sémantique de l’information. Dans ce cadre, les outils de recherche doivent s’adapter, changer profondément afin de tirer parti de ces espaces structurés, ouverts et normalisés.
89L’utilisation du modèle RDF et des principes du linked data ainsi que l’identification des informations par des URI (Uniform Resource Identifier) offrent de nouvelles possibilités pour les moteurs de recherche : l’une des plus évidentes est de pouvoir rapprocher des informations entre elles. Dans le domaine de la recherche scientifique, cela permet d’améliorer principalement l’administration de la preuve scientifique, pour retrouver les relations entre les publications scientifiques et les sources de données (les archives, les fonds documentaires). C’est l’une des ambitions de la plate-forme Isidore [12], développée par le Très Grand Équipement (TGE) Adonis [13] et avec l’aide du Centre pour la communication scientifique directe (CCSD) [14], deux équipes du CNRS dans le cadre d’un marché public [15]. Isidore est une solution de traitement de l’information scientifique pour les sciences humaines et sociales (SHS) qui collecte, normalise, enrichit et diffuse données et documents de la recherche. Ses missions sont multiples : créer un accès unifié à des données réparties, qualifier et relier des données ou encore placer les documents et les données numériques des SHS dans le web de données.
90Isidore repose sur les principes du web de données et du linked data, permettant ainsi à son moteur de recherche d’indexer des informations reliées à des référentiels métiers (exprimés en Skos/RDF). Par la mise en place d’une chaîne de traitement de l’information proposant des normalisations, des enrichissements sémantiques et des catégorisations automatiques, Isidore offre aux chercheurs la possibilité de suivre l’évolution des disciplines et d’en explorer les marges afin de repérer de nouvelles questions. L’apport des méthodes du web de données (format pivot RDF, référentiels en Skos/RDF, utilisation d’URI) constitue un environnement de base permettant au moteur de recherche de travailler sur une assiette plus large de documents structurés. RDF étant au centre du projet, les données sont aussi réutilisables via un SPARQL endpoint [16]. Ces méthodes, réintroduisant l’information structurée au c œur des données, offrent aux moteurs l’opportunité de diversifier les modes de représentation de l’information : visualisation, frises chronologiques et temporelles peuvent être proposées en complément des résultats en liste. Cela veut dire aussi que les moteurs de recherche doivent être souvent complétés par des chaînes de traitement en amont.
91Si les moteurs utilisent depuis longtemps différents gisements de données, l’information structurée en RDF placée dans le Web leur permet d’indexer des informations complexes réparties (et non plus seulement des documents) afin de proposer des contenus reliés et enrichis. L’indexation du texte intégral, si celui-ci est enrichi d’une structuration RDF de l’information, peut largement améliorer les capacités d’un moteur en matière de pertinence (validation des informations à l’aide de leurs relations) et d’enrichissement (qualification des informations, expansions sémantiques à l’aide de référentiels structurés). C’est justement la proposition que fait Isidore : collecter, enrichir, donner accès et rendre réutilisables les données.
Des moteurs « sémantiques »
92Le web de données, couplé à des moteurs de recherche capables de tenir compte des principes du linked data et d’exploiter les documents et données modélisés avec RDF, prend donc une couleur sémantique. Une couleur seulement, car nous ne sommes qu’au début de cette évolution du Web pour de grandes masses de données, dont une partie se déroule dans le cadre du mouvement de l’open data. Si de nombreux projets prennent la voie du web de données et du linked data, il faut travailler à ce que ces grandes masses de données libérées, parmi lesquelles les données publiques réutilisables, puissent être exploitées par de véritables moteurs de recherche sémantique, afin d’en tirer toute la richesse informationnelle. •
Les enjeux du web sémantique pour les acteurs du marché de l’information et de la connaissance
93Anticiper. Les technologies du web sémantique ouvrent de nouvelles perspectives pour l’ensemble des acteurs du marché de l’information. C’est en tout cas la conviction des membres du GFII.
94Le web sémantique [17] s’inscrit dans la continuité du travail des éditeurs et des professionnels de l’information et approfondit les notions de vocabulaires, de schémas de données et de métadonnées. Il propose de nouvelles formes de contenus web, intelligibles pour les ordinateurs, ouvrant de nouvelles possibilités de valorisation des contenus et le développement de services innovants.
95Cet environnement permet de mettre en avant les contenus pertinents, en améliorant la précision des moteurs de recherche et la qualité des résultats présents. Il facilite l’exploration de grands corpus, en alimentant les facettes et en fournissant des outils de navigation, et enrichit leur compréhension par des liens vers les connaissances connexes et par les possibilités d’analyse du contenu. D’autre part, en s’appuyant sur le profil de l’utilisateur, il autorise, au-delà de la recherche et la découverte de corpus, la livraison anticipée de contenus personnalisés et contextuels.
96Face à ces multiples possibilités, les enjeux de la création d’un web de concepts organisés concernent alors tous les acteurs du marché de l’information et de la connaissance.
97Pour les acteurs présents sur le Web (producteurs de contenus, éditeurs, e-commercants, etc.), l’enjeu est de rendre visibles sur Internet les contenus, les données, les connaissances, les offres : les techniques de référencement demandent des contenus structurés pour une restitution intelligente et valorisée des contenus proposés.
98Les éditeurs professionnels proposent d’ores et déjà de nombreux services à forte valeur ajoutée s’appuyant sur les technologies du web sémantique. Face à la multiplication des contenus gratuits accessibles, ces services permettent, en valorisant l’ensemble des ressources, d’accroître l’usage des fonds éditoriaux, de fidéliser les utilisateurs et de développer l’activité à partir de l’innovation produite. Tout en augmentant la productivité éditoriale, les éditeurs peuvent alors imaginer de nouvelles sources de revenus, comme la publicité contextuelle et ciblée.
99Les technologies du web sémantique représentent une fantastique opportunité dans le cadre de l’ouverture des informations publiques. En publiant des données ouvertes, réutilisables et interopérables, les organismes publics favorisent ainsi le développement de nouveaux services.
100La prochaine étape sera la mise à disposition de données publiques reliées entre elles (linked data). L’ouverture des données scientifiques (open science) est également un enjeu majeur qui permettra de mieux diffuser non seulement les résultats de la recherche mais également les données scientifiques ayant permis d’aboutir à ce résultat.
101Pour les organisations, le web sémantique fournit un accès efficace et unifié aux données, contenus et connaissances internes, en les insérant dans les flux de travail (data management, content management) et en permettant des gains importants de productivité. De plus, en liant les données internes de l’entreprise avec les données ouvertes, de nouveaux territoires de veille et d’analyse vont apparaître. Pour le moment, le web sémantique est encore peu présent dans l’entreprise, mais il est probable que les technologies de base seront rapidement intégrées.
102L’appropriation de ces technologies représente un vrai défi pour l’ensemble des acteurs de l’information. Défi qui ne pourra être relevé que si le dialogue entre informaticiens, professionnels de l’information et praticiens des secteurs concernés, condition clé pour le développement et la réussite de ces projets, s’instaure. •
Focus. Des droits pour décider du partage de ses données
103Choisir. Le web de données implique de pouvoir relier et interroger de manière simple des données dispersées. Mais pour accéder à ces données et avoir le droit de les utiliser, il faut souvent contacter des ayants droit et négocier des licences.
104Rendre les données libres et ouvertes [18] permet de disposer d’un fonds commun de données dans lequel n’importe qui peut puiser, malgré la diversité des contextes juridiques et institutionnels de leur création [19].
105Les données brutes ne sont pas protégées par le droit d’auteur, mais leur mise en forme l’est dès lors qu’elle ne découle pas d’un processus automatique et technique. Si les données sont structurées et choisies de manière originale, la base de données qui en résulte est protégée par le droit d’auteur et, si le producteur de la base de données a investi de manière substantielle pour la constituer et la gérer, il peut s’opposer à toute extraction ou réutilisation substantielle de celle-ci.
106Au titre du droit de réutilisation des données publiques, l’administration met à la disposition du public les données qu’elle a produites ou qu’elle détient. Leur accès peut aussi être protégé a priori par un contrat et a posteriori par une action en concurrence déloyale, pour parasitisme ou enrichissement sans cause.
Des licences nécessaires mais diverses
107Il est recommandé d’accompagner les données par un contrat de licence, les utilisateurs ayant besoin de savoir d’où viennent les données, si elles ont été modifiées et les modalités de réutilisation autorisées [20].
108Ces contrats de licences organisent le partage des données en évitant, puisque les contrats sont la loi des parties, de s’interroger sur la loi applicable ou sur la mise en jeu de concepts juridiques différents.
109À côté des logiciels libres et des modèles généralistes (licences Creative Commons, par exemple), diverses communautés (informaticiens, chercheurs, musiciens, etc.) ont développé des licences qui répondent à leurs priorités. Ces licences ont pu évoluer dans le temps et se présenter sous de nouvelles versions numérotées, après avoir été améliorées ou adaptées à de nouvelles pratiques ou législations. Ce mouvement, d’abord appliqué aux œuvres, s’est étendu ensuite aux données [21].
Quelle licence choisir ?
110Abandonner tous ses droits, en choisissant une licence comme l’Open Data Commons - Public Domain Dedication & Licence (PPDL), permet de libérer les données mais pas de s’assurer qu’elles restent libres pour bâtir un fonds commun de données, puisque cette licence n’oblige pas les réutilisateurs à partager les résultats obtenus à partir des données exploitées.
111Au contraire, les licences Copyleft forcent le partage. Elles veillent à ce que l’usage de l’ œuvre copiée ou modifiée demeure libre en obligeant l’ œuvre seconde à obéir au même régime, et garantissent ainsi l’existence d’un fonds commun d’œuvres utilisables librement.
112S’il convient, en préalable, de s’assurer que l’on est en mesure de céder tous les droits que la licence va conférer (coauteurs éventuels, droits d’auteur sur les œuvres incorporées), il est utile d’en apprécier l’impact avant d’opter pour l’une d’entre elles. •
Point de vue. Quelle formalisation pour les contenus culturels ?
113Distinguer. Les technologies du web sémantique sont-elles aptes à traiter tous les contenus ? Non, répond Manuel Zacklad. Tous les contenus ne sont pas interprétables selon la sémantique référentielle mise en œuvre dans les ontologies. Particulièrement les contenus culturels.
114L’article programmatique de Tim Berners-Lee sur le web sémantique [22] comme les travaux ultérieurs des groupes de normalisation qui promeuvent le recours aux ontologies relèvent d’une posture épistémologique bien connue dans les sciences de l’ingénieur que nous qualifierons ici, pour simplifier, de « techno-centrée ». Cette approche peut être caractérisée par un certain nombre de postulats :
- l’informatique conçue comme un dispositif visant essentiellement à se substituer aux personnes, y compris dans leurs activités intellectuelles les plus complexes (cf. le mythe de l’intelligence artificielle) ;
- l’ignorance du rôle de la langue comme dispositif médiateur entre les symboles informatiques (les variables) et les ontologies matérielles (objets supposés « exister » dans le monde) ;
- la réduction des relations interpersonnelles à des transactions automatisées censées traiter l’ensemble des problèmes sous la forme de « services » automatisés ;
- la vision de la diffusion des technologies comme découlant exclusivement de découvertes scientifiques en laboratoire sans référence ni aux usages ni aux enjeux sociologiques, économiques ou politiques.
Pratiques logistiques et signification référentielle
115Comme nous l’expliquons dans nos précédents travaux [23], les langages logiques utilisés pour la construction des ontologies [24] relève d’une sémantique référentielle qui décrit les objets du monde par un ensemble de propriétés prenant une valeur vraie ou fausse. De cette manière, il est possible de se débarrasser de toute influence exercée par le contexte du terme (le « texte » environnant) comme de celle exercée par la situation d’énonciation et/ou d’interlocution. Cela est possible uniquement quand la signification renvoie :
- à des concepts définis par des mesures physiques associées à des standards universels : masse, dimensions, caractérisation physico-chimique, etc. ;
- à des caractéristiques administratives et institutionnelles apparaissant comme indiscutables à une époque et dans une ère géographique données sous le contrôle d’une autorité administrative publique : patronyme, localisation administrative, taux de change, etc., ou sous le contrôle d’une autorité privée en mesure de contraindre de manière précise la définition et les pratiques de gestion associées à certains items ;
- à des concepts abstraits définis par des axiomatiques formelles dans le domaine des mathématiques ou de la logique mathématique.
Contenus culturels et formalité socio-sémantique
116Quand la relation aux objets et aux personnes ne relève pas de pratiques logistiques liées à leur dimension matérielle mais de pratiques liées à la lecture, à l’évaluation qualitative, au raisonnement juridique, à l’histoire et à la géographie, aux relations sociales, à l’art, aux activités scientifiques dans leurs dimensions inventives, etc., alors le niveau de signification des symboles utilisés dans la communication n’est plus référentiel mais rhétorico-herméneutique [25].
117La signification référentielle du web sémantique s’appuie sur des systèmes d’organisation des connaissances (SOC) qui relèvent d’une formalité [26] logicomathématique, tandis que la signification rhétorico-herméneutique s’appuie sur des systèmes qui relèvent d’une formalité sémiotique ou socio-sémantique. Pour les sémioticiens, les langages logico-mathématiques utilisés pour décrire les ontologies ne sont pas des sémiotiques. Dans le jeu d’échec ou l’algèbre, chaque élément d’expression est toujours corrélé au même élément de contenu, la valeur d’un fou étant « d’aller sur plusieurs cases en toutes diagonales (et en toutes diagonales exclusivement au contraire de la reine) » [27]. Par contraste, les langages documentaires comme la très grande majorité des SOC utilisés pour décrire les contenus (réseaux sémantiques, approches à facettes, folksonomies, etc.) sont généralement des systèmes sémiotiques.
118Ainsi, dans les langages documentaires, qui relèvent d’une formalité socio-sémantique, les catégories utilisées pour organiser logiquement les termes du SOC (par exemple terme générique et terme spécifique) procèdent d’une méta-sémiotique, ainsi définie par Sémir Badir [28] : « Les métasémiotiques prennent leur source dans des sémiotiques dotées, pour ainsi dire, d’un plan de contrôle. Grâce à ce plan, chaque élément du contenu trouve à s’adjoindre une expression sous un rapport de dénomination. C’est ce que l’on fait lorsqu’on dit, dans un exemple célèbre exploité par Roland Barthes, que dans telle publicité pour des pâtes françaises les teintes jaunes et vertes sur fond rouge (les couleurs du drapeau italien) signi fient l’italianité [29] « Italianité » est une expression métasémiotique pour désigner la signi fication d’éléments visuels (de couleurs). »
Double interprétation
119Le contrôle catégoriel que la métasémiotique exerce sur les termes n’est pas de même nature que celui exercé par des types sur les objets dans la logique mathématique. Dans une métasémiotique, il faut procéder, pour déterminer si un terme relève ou non d’une catégorie, à une double interprétation en contexte du système des catégories et du système des termes objets. Dans notre article de 2010, nous prenions l’exemple d’un catalogue musical. Pour savoir si « musique bretonne » (terme objet) est bien un « genre musical », « représentatif de » « musique celtique » (trois termes de la métasémiotique), il faut interpréter les notions de « genre musical » (selon la source sonore, le lieu de destination, la durée du morceau, etc.), de « représentatif » (un exemple, un type majoritaire, un prototype, une tendance actuelle, etc.) et la notion de « musique celtique » (par exemple définition géographique ou ethnomusicologique). L’interprétation peut laisser subsister des ambiguïtés ou des sens multiples qui pourront être résolus (ou non) en contexte et être considérés, selon les cas, comme une richesse ou comme un défaut.
120« Musique bretonne », le terme objet doit lui-même être interprété selon le texte ou la situation d’interlocution d’où il émane pour savoir s’il désigne, par exemple, la « musique folklorique bretonne » ou la « musique produite par des artistes bretons ». Dans tous les cas, les choix d’interprétation dépendront d’une intention argumentative ou rhétorique qui correspond à la finalité du SOC, à la logique de conception adoptée par ses auteurs et à celle de l’usage, qui ne sont pas toujours superposées. Les relations entre ces termes dépendront de la langue utilisée, de l’aire culturelle considérée et du domaine d’activité.
121La mise en évidence des niveaux de signification des SOC et des types de formalité associée, logico-mathématique versus socio-sémantique, permet de couper court aux prétentions à la généralisation portées par certains promoteurs enthousiastes des ontologies. Celles-ci peuvent avoir une certaine utilité dans l’informatisation des pratiques logistiques qui correspondent à une dimension importante de l’activité des documentalistes, bibliothécaires et archivistes. Mais, quand les projets d’informatisation visent à assister des activités impliquant une interprétation des contenus, il faut nécessairement se tourner vers d’autres SOC. Par chance, les systèmes socio-sémantiques sont actuellement en pleine mutation. Cette mutation va du renouvellement des approches à facettes jusqu’aux folksonomies en passant par toutes les formes de couplage entre moteur de recherche et SOC susceptibles de fournir des modes d’accès aux contenus conciliant une très large portée et une pertinence garantie par des communautés actives d’annotateurs/taggeurs professionnels et amateurs. •
Notes
-
[*]
Les sigles des technologies relatives au web sémantique sont développés en page 29.
-
[1]
François Rastier. Sémantique interprétative, 3e éd. mise à jour, Presses universitaires de France, 2009.
-
[2]
Sont indiquées entre parenthèses les dates de publication des recommandations du W3C.
-
[3]
Tim Berners-Lee. “W3 future directions”, International World Wide Web Conference, Geneva, September 1994 http://www.w3.org/Talks/WWW94Tim/
-
[4]
En informatique décisionnelle, un data cube ou cube de données est une matrice à trois dimensions ou plus (c’est pourquoi on peut parler d’hypercube) où chacune d’elles est formée des données d’un axe d’analyse distinct (par exemple pour le chiffre d’affaires, les axes des régions, périodes, produits).
-
[5]
On lira avec profit à ce sujet le document de définition des URI : http://tools.ietf.org/html/rfc3986
- [6]
- [7]
- [8]
- [9]
- [10]
- [11]
- [12]
- [13]
- [14]
-
[15]
Consortium formé par les sociétés Antidot, Mondeca et Sword.
-
[16]
Un SparQL endpoint est une interface d’interrogation d’une base de données RDF (ou triple store) utilisant le langage de requête SparQL, cf. l’article p.35.
-
[17]
Cet article propose une courte synthèse des enjeux pour les acteurs du marché de l’information, réalisée à partir des présentations qui se sont déroulées lors du séminaire « Introduction illustrée au web sémantique : réalités et perspectives », organisé par le GFII le 13 décembre 2011. À l’issue de cette journée, le GFII a annoncé la création d’un groupe de travail consacré au sujet.
-
[18]
Une donnée libre est une donnée que l’on peut utiliser, modifier et rediffuser ; une donnée est ouverte lorsqu’elle est accessible techniquement, l’interopérabilité étant assurée par des standards.
-
[19]
« La donnée libre », Michèle Battisti, Actualités du droit de l’information (ADI), mars 2010 http://www.adbs.fr/c/c
-
[20]
« Licences libres et informations du secteur public », Michèle Battisti, ADI, juin 2010 http://www.adbs.fr/c/d
-
[21]
La mise à disposition ouverte des œuvres d e l’esprit, CSPLA, 2007 http://www.cspla.culture.gouv.fr/CONTENU/miseadiposouverterapp.pdf
-
[22]
Tim Berners-Lee, James Hendler, Ora Lassila. “The Semantic Web”, Scientific American, May 2001, p. 29-37.
-
[23]
Notamment, Manuel Zacklad. « Évaluation des systèmes d’organisation des connaissances », Les cahiers du numérique, 2010, vol.6, n°3, pp. 133-166.
-
[24]
Nous traitons ici exclusivement des ontologies définies au sens du web sémantique, basées sur les langages logiques tels qu’OWL.
-
[25]
François Rastier. « De la signification au sens. Pour une sémiotique sans ontologie », Texto!, juin-sept. 2003. http://www.revue-texto.net/Inedits/Rastier/Rastier_Semiotique-ontologie.html
-
[26]
On parle de formalité à propos des langages formels, c’est-à-dire des langages artificiels basés sur des termes figés.
-
[27]
Sémir Badir. Hjelmslev, Paris : Belles-Lettres, 2000.
-
[28]
Sémir Badir. « La hiérarchie sémiotique », dans Louis Hébert (dir.), Signo, Rimouski (Québec), 2006, http://www.signosemio.com/Hjelmslev/hier.asp
-
[29]
Roland Barthes. « Rhétorique de l’image » in : L’Obvie et l’Obtus. Essai s critiques III, Seuil, 1982, p. 25-42.