Couverture de I2D_162

Article de revue

Des textes augmentés avec les données du Web

Page 45

Notes

  • [1]
    « Une preuve de concept ou POC (de l’anglais : proof of concept), ou encore démonstration de faisabilité, est une réalisation courte ou incomplète d’une certaine méthode ou idée pour démontrer sa faisabilité ». Source : Wikipédia
  • [2]
    Voir ces deux exemples sur le site de Sparna, http://labs.sparna.fr
  • [3]
    Par exemple, dans le texte de presse, le mot « beefburgers » est annoté avec l’URI DBPedia http://dbpedia.org/resource/Hamburger.

1 Les données ouvertes disponibles sur le Web permettent d’enrichir la lecture de textes de presse, d’articles scientifiques ou de billets de blog. Nous allons illustrer par une preuve de concept [1] comment ces gisements de données peuvent valoriser des textes et, inversement, comment les textes peuvent devenir une porte d’entrée dans les données.

Un enrichissement multi-axes

2 Les deux textes qui nous serviront d’exemple pour cette démonstration sont un article de la presse anglaise, augmenté avec DBpédia, et un article scientifique en français, augmenté avec les données d’Isidore [2]. Dans les deux cas, le texte affiché est enrichi de plusieurs façons : les entités (personnes, lieux, organisations, concepts de thésaurus) sont soulignées dans le texte puis une synthèse des entités trouvées est donnée à côté du texte : affichage sur une carte des marqueurs des lieux mentionnés (où ?), liste des personnes et organisations (qui ?), liste des autres entités (quoi ?) ; enfin, un clic sur une entité affiche un encart d’informations : titre, image, description et lien vers la source de données d’origine (DBpédia/Wikipédia) ou, dans le cas d’Isidore, vers les ressources MediHAL ou les concepts des thésaurus Pactols ou Gemet. Le texte souligné, la carte et la liste des entités sont synchronisés : un passage de la souris sur un lieu du texte met en évidence le marqueur correspondant sur la carte, et vice-versa.

De l’annotation du texte à la récupération des données

3 Dans les deux articles, le texte a été annoté manuellement en marquant en HTML les fragments de texte correspondant à des entités (personnes, lieux, organisations, concepts de thésaurus) décrites dans les données. Ce marquage est réalisé à l’aide de balises « span » utilisant la syntaxe RDFa, et c’est l’URI de l’entité dans la source de données qui est utilisée comme annotation [3].

4 Au moment de l’affichage de la page, du code Javascript analyse le texte, récupère les URIs des annotations et interroge les données en SparQL pour proposer les enrichissements. En particulier, les informations de latitude et de longitude des lieux sont extraites pour afficher la carte, et le titre, l’image et la description sont récupérés à la volée pour afficher l’encart d’information. Par ailleurs, dans l’exemple basé sur Isidore, on liste également les articles du même auteur. Tous les traitements sont réalisés dans le navigateur ; il n’y a pas de scripts sur le serveur.

Annotation automatique et enrichissement évolutif

5 Si l’annotation dans ces preuves de concept a été réalisée manuellement, il est possible de coupler ce mécanisme avec des annotateurs automatiques, comme DBpédia Spotlight, pour enrichir à la volée n’importe quel texte, ce qui pose la question de la qualité des annotations produites, notamment à cause des questions d’homonymie. Les textes annotés restent par ailleurs indépendants des données ; celles-ci sont mises à jour régulièrement et l’interface de lecture augmentée bénéficie automatiquement de ces mises à jour.

6 Les gisements de données ouvertes du Web peuvent donc être exploités par des protocoles standards (URI, RDF, SparQL) pour enrichir la lecture de textes. Quels nouveaux usages apportent-ils ? Quelle est la place des thésaurus dans ces mécanismes ? Peut-on imaginer une « boucle retour » permettant au lecteur du texte d’enrichir les données affichées ? Autant de questions ouvertes par cette preuve de concept.


Date de mise en ligne : 05/07/2016

https://doi.org/10.3917/i2d.162.0045

Notes

  • [1]
    « Une preuve de concept ou POC (de l’anglais : proof of concept), ou encore démonstration de faisabilité, est une réalisation courte ou incomplète d’une certaine méthode ou idée pour démontrer sa faisabilité ». Source : Wikipédia
  • [2]
    Voir ces deux exemples sur le site de Sparna, http://labs.sparna.fr
  • [3]
    Par exemple, dans le texte de presse, le mot « beefburgers » est annoté avec l’URI DBPedia http://dbpedia.org/resource/Hamburger.

Domaines

Sciences Humaines et Sociales

Sciences, techniques et médecine

Droit et Administration

bb.footer.alt.logo.cairn

Cairn.info, plateforme de référence pour les publications scientifiques francophones, vise à favoriser la découverte d’une recherche de qualité tout en cultivant l’indépendance et la diversité des acteurs de l’écosystème du savoir.

Retrouvez Cairn.info sur

Avec le soutien de

18.97.14.84

Accès institutions

Rechercher

Toutes les institutions