Couverture de DOCSI_503

Article de revue

Enjeux professionnels

Pages 26 à 41

Notes

Décrire les objets du savoir, les nouveaux paradigmes du catalogage

1Métadonnée. Si les usagers étaient jusqu’à présent accoutumés à manipuler des documents qui étaient préalablement passés au filtre de l’analyse et du traitement des professionnels de l’information, le nouveau paysage de la donnée oblige à repenser en grande partie ces activités traditionnelles pour satisfaire une nouvelle attente : la recherche, l’agrégation, l’assemblage de jeux de données disponibles en grande quantité dans des silos d’information pour recomposer des contenus. Ceci a plusieurs conséquences : s’adapter aux formats ouverts qui permettent l’échange et l’interopérabilité des données, travailler en collaboration pour enrichir au mieux les contenus, fournir, du côté des institutions, les supports méthodologiques, juridiques et scientifiques qui aideront les professionnels à prendre les tournants attendus.

2Dans les bibliothèques, on l’appelle le « cœur de métier ». Le catalogage, ce mal-aimé, fait l’objet de controverses passionnées depuis des années. Pour de nombreux collègues, décrire un document « livre en main » en appliquant « la norme » reste l’essence même de leur identité professionnelle. C’est un point de passage dans le circuit du document, au cours duquel on s’approprie la collection en même temps qu’on l’enrichit de descriptions et d’indexations fiables et structurées qui rendront possibles sa gestion par les professionnels et sa découverte par le public. À la parution d’une nouveauté littéraire en vue, à la mort d’une célébrité, nombreux sont ceux qui se disputent toujours l’honneur d’être le premier à créer ou clore une notice. Quoi qu’en pensent les gestionnaires qui s’évertuent à en réduire la charge au profit d’activités moins souterraines, le catalogage reste un sport national, un sport d’élite un peu vieillissant certes, mais qui intrigue les générations nées dans un environnement plus proche du HTML que des formats Marc. Le catalogueur de bibliothèque peut-il devenir le gestionnaire de données de demain ?

Une nouvelle approche des métadonnées

3On catalogue toujours, dans beaucoup de bibliothèques. Cette activité tend néanmoins à se diversifier, à s’intégrer à d’autres processus qui impliquent de gérer des flux : numériser des ouvrages, importer, exporter ou transformer des données, alimenter des systèmes d’information, négocier avec les éditeurs, repenser la médiation en ligne, etc. Ces nouveaux processus replacent la gestion des métadonnées au centre du métier, mais sous une lumière différente.

4La mort annoncée des catalogues et des catalogueurs ne serait donc plus d’actualité ? Faisons le pari que, dans un monde numérique aussi compétitif que chaotique, la diffusion d’informations bibliographiques structurées sera vitale ; que, dans ce trop-plein informationnel qu’est le Web, les données de confiance seront de plus en plus recherchées pour leur valeur. N’y-a-t-il pas aujourd’hui une opportunité stratégique pour les bibliothèques à faire valoir leur savoir-faire bibliographique ? Sans doute, mais cet « or noir » ou ce « trésor » bibliographique ne peut plus s’appréhender dans les mêmes termes, et les métiers qui l’ont fondé vont évoluer. On propose ici un tour d’horizon des principales mutations qui conduisent à penser autrement les métiers du catalogue, dans la perspective de leur adaptation à l’environnement numérique.

Une offre documentaire exponentielle dans un marché qui se concentre

5On assiste à un triple mouvement d’accroissement, de dématérialisation et de diversification des sources d’information documentaire. Comme en témoignent les dernières statistiques du dépôt légal [1], la production éditoriale imprimée française n’a jamais été aussi prolifique : plus de 72 000 ouvrages déposés en 2012, soit 3% de plus qu’en 2011, une tendance à la hausse qui s’inscrit dans la durée et confirme qu’en dépit de l’essor du numérique, le papier n’est pas mort et va continuer de nécessiter d’importants efforts de signalement.

6Dans le même temps, l’édition numérique, qu’elle soit nativement numérique ou issue de la numérisation, commerciale, académique, institutionnelle, patrimoniale ou collaborative, n’a de cesse de se diversifier et de déstabiliser les agences bibliographiques : les bases de données électroniques, revues et journaux en ligne, e-books, blogs et produits multimédias à télécharger sont au cœur de la tourmente que vivent les bibliothèques. Leurs coûts inflationnistes grèvent les budgets et rendent caducs les catalogues traditionnels, inaptes à gérer ce type de ressources, pour lesquels il est nécessaire d’acquérir sur le marché des systèmes clés en main où l’on s’abonne à un service global d’accès aux ressources.

7Le catalogue, en tant qu’application, n’est plus l’alpha et l’oméga de la bibliothèque et devient une brique logicielle ou une base d’appui parmi d’autres. Il doit désormais coexister avec d’autres réservoirs et bases de connaissances loués à des éditeurs commerciaux et trouver sa place dans l’architecture de services de découverte généralement maintenus hors les murs. Ces systèmes sont destinés à fournir à l’usager final, dûment accrédité, un accès aussi fluide, intuitif et direct que possible à la ressource numérique primaire, qu’il s’agisse d’articles de périodiques électroniques ou de livres numériques.

8Se pose enfin la question du signalement de nouveaux types de ressources jusqu’ici inconnus et que même les éditeurs commerciaux ne savent pas gérer : comment, par exemple, administrer les données brutes de la recherche, les corpus numériques construits ou convoités par les chercheurs en humanités numériques ou encore les colossales archives de l’Internet ? Le principe même du catalogage « à la pièce » de documents aux contours clairement identifiés est-il encore de mise alors que l’offre qui se déploie s’apparente plutôt à un écosystème d’informations et de liens entre des ressources aux granularités et aux périmètres aussi variables que l’usage qui en est fait ? Et comment les métadonnées issues du catalogage manuel coexisteront-elles avec des processus automatiques de reconnaissance de caractères ou d’indexation sémantique ?

Des usages qui incitent à la transformation des données bibliographiques

9L’internaute d’aujourd’hui évolue dans un monde beaucoup plus intuitif et compétitif qu’une salle de référence bibliographique. Il n’est plus nécessairement à la recherche de l’édition particulière d’un ouvrage. Il est plus souvent en quête des ressources - des « données », éventuellement issues de documents différents - qui lui permettront de traiter le sujet qui l’intéresse ou d’accomplir la démarche qui l’a amené sur la Toile. Si la référence qu’un système d’information lui renvoie ne lui permet pas d’accéder très vite et très facilement au document qui répond à son besoin, il passe son chemin et va voir ailleurs.

Le pari du web sémantique

10Parce qu’elles ne sont pas structurées selon les standards du Web, la plupart des notices bibliographiques restent enfouies dans les profondeurs du Web invisible. Faute de référencement correct, les catalogues survivent difficilement aux usages de navigation sur l’internet, dont les points d’entrée sont les moteurs de recherche. Sans visibilité depuis les premières pages de résultats des moteurs, les références des bibliothèques ont peu de chance d’être consultées. Pour pallier cette difficulté, il faut d’abord faire évoluer leurs formats de diffusion en assignant aux notices des identifiants pérennes et actionnables (URI) adaptés aux pratiques des moteurs, et tirer parti de la forte structuration des catalogues en exprimant leurs liens internes (entre notices bibliographiques et notices d’autorité, en particulier) au moyen de RDF, nouveau langage du Web. C’est le pari du web sémantique, porté par le consortium W3C et qui a trouvé écho parmi les bibliothèques les plus innovantes [2].

Un meilleur référencement par les moteurs

11Le modèle de données des notices de bibliothèque, dont la structuration informatique initiale (au format Marc) transposait fidèlement l’organisation historique de la recherche dans les fichiers à tiroirs, n’est pas adapté aux traitements du Web ni aux comportements des internautes. Cette notice, qui décrit des documents matériels et associe leur description à des référentiels et des points d’accès auteur, titre ou sujet, doit être réorganisée pour que ces liens particulièrement précieux qui associent des œuvres à des concepts documentés et ordonnancés dans des référentiels (tels que Rameau, pour l’indexation matière) puissent être valorisés sur le Web.

12Cette transformation implique une « atomisation » de la notice, dont les éléments doivent être décomposés plus finement pour permettre l’encodage et l’exploitation automatique de toutes leurs relations. Corollaire aux prérequis d’un meilleur référencement par les moteurs, la restructuration de la notice traditionnelle selon le modèle FRBR [3] constitue un chantier d’envergure qui vise, en somme, à reformuler l’information bibliographique afin qu’elle soit proposée à l’usager dans les termes qui sont les siens.

Datamining et crowdsourcing : de nouveaux usages à prendre en compte

13Dans le monde de la recherche, on ne « lit » plus forcément les documents signalés au catalogue, on a aussi besoin de « traiter » et de « fouiller » des corpus de métadonnées pour analyser des séries, comparer des résultats issus de sources différentes, calculer la notoriété des références, des auteurs - bref, de faire du data mining à partir de références bibliographiques qui sont confrontées ou agrégées à d’autres types de données.

14N’oublions pas enfin que l’internaute n’est plus en situation de « subir » ou consommer humblement l’information. Il est susceptible d’intervenir dans sa production, son partage et son enrichissement, utilisant les mécanismes du crowdsourcing initiés par le Web 2.0. Cette participation des usagers pourrait aider les professionnels à investir enfin le catalogue comme un outil de médiation directe.

15Comme facteur commun de ces nouveaux usages, on entrevoit ainsi la nécessité d’envisager le signalement documentaire dans un univers beaucoup plus vaste que le paradigme initial du catalogue pensé comme l’inventaire normalisé de ce que la bibliothèque conserve et donne à consulter. Les données bibliographiques doivent désormais coexister avec d’autres, de format, de qualité, de granularité et de statut différents : métadonnées produites par les éditeurs dans des formats autres que le Marc (Onix par exemple), métadonnées produites par d’autres types d’institutions (en EAD, par exemple, pour les archives), métadonnées « sociales » produites par les usagers.

Des opérateurs publics qui se mettent en ordre de marche, mais vers où ?

16Face à ces mutations de l’offre et de la demande, les bibliothèques réfléchissent aux fondements de leur propre organisation bibliographique, de leur rapport à la donnée, à l’usager, au catalogue. Ces évolutions sont d’autant plus délicates à programmer que, comme pour tout grand changement technologique et culturel, elles auront un coût, et que les bibliothèques sont soumises à d’importantes contraintes budgétaires. La stratégie de changement devra donc réussir à se rapprocher des pratiques du public mais aussi à réaliser des économies d’échelle en recherchant des solutions de mutualisation : il ne sera pas possible de justifier le coût du changement sans arguments économiques.

17En premier lieu, et pour des raisons économiques évidentes, il n’est plus concevable pour une organisation de produire seule toutes les métadonnées dont elle a besoin. Il lui faudra composer avec des réservoirs de données aux formats et de qualité hétérogènes, dans le cadre de réseaux de partage, d’échange ou d’enrichissement.

18Au niveau des agences bibliographiques, cette évolution se traduit, pour l’ABES, par la négociation des métadonnées des éditeurs de ressources électroniques dans le cadre de l’acquisition des licences nationales (projet Istex), et, pour la BnF, par la récupération de métadonnées auprès des éditeurs et diffuseurs français par le biais de son extranet du dépôt légal [4]. Le projet d’un hub des métadonnées [5], outil d’amélioration et d’enrichissement de métadonnées de l’IST que lance aujourd’hui l’ABES ou la volonté conjointe de rapprochement des données bibliographiques de l’ABES et de la BnF dans le web de données telle qu’elle a été affirmée dans leur rapport d’orientation au Comité stratégique bibliographique en 2012 [6] illustrent également ce mouvement du côté des agences de l’État.

19Ces perspectives de mutualisation ont souvent pour corollaire juridique une incitation des pouvoirs publics à adopter des licences ouvertes, comme celle recommandée par Etalab [7] dans le cadre de l’initiative gouvernementale data.gouv.fr et du mouvement d’ouverture des données publiques.

20Ces orientations, si elles sont suivies d’effet, pourraient contribuer à positionner les agences bibliographiques dans un rôle nouveau de « hubs » chargés de garantir la maîtrise, la maintenance et la publicité de référentiels de données utiles à la communauté nationale. Elles pousseront plus largement les établissements publics à ouvrir et valoriser leurs métadonnées auprès de communautés professionnelles avec lesquelles elles avaient jusque-là peu de contacts.

Les activités de « récupération » et de versement, un axe fort du métier

21Quelles conséquences pour les bibliothèques ? D’abord, elles pourront concentrer leur production bibliographique interne sur les ressources qui constituent leur valeur ajoutée propre. Pour toutes les autres ressources, elles se contenteront d’alimenter leurs systèmes par des flux de métadonnées produites par des tiers, publics ou privés. L’exploitation de ces métadonnées « exogènes » se fera, comme c’est déjà le cas, par dérivation et duplication locale ou en reliant les ressources directement dans le Web de données. Dans d’autres cas, il s’agira plutôt de verser sa production locale dans un réservoir collectif hébergé ailleurs, éventuellement dans le « nuage ». Pour assurer l’interopérabilité de l’ensemble des jeux de données qu’elles auront à maintenir connectés, les bibliothèques devront se doter de routines, d’outils d’analyse, de conversion ou d’appariement adaptés à la gestion des transactions. Les activités de récupération, de versement ou de « liage » tous azimuts vont requérir des compétences et une ingénierie particulières qui constituent un axe fort d’évolution du métier - probablement le plus important à court et moyen terme. Elles impliqueront de travailler plus que jamais au sein de réseaux, qu’il s’agisse de réseaux de production partagée (comme le Sudoc), d’échange et d’achat de notices (comme WorldCat ou WorldShare d’OCLC) ou encore de bases de connaissances pour les ressources électroniques (comme la Global Open Knowledge Base, GOKb, développée par le JISC).

22Une question stratégique que chaque établissement aura à résoudre concernera précisément le choix des réseaux qui répondront le mieux à ses attentes : réseau institutionnel, national, européen, international, etc. C’est un point de vigilance, car les nouvelles configurations qui se dessinent au niveau institutionnel et sur le marché mondial sont susceptibles de reconfigurer, voire de déstabiliser, les réseaux existants.

Structurer l’information

23En second lieu, les évolutions engagées ou envisagées vont nécessiter, on l’a vu, une évolution profonde de la structure même de l’information bibliographique. La « FRBRisation » des catalogues va de pair avec l’assignation d’identifiants pérennes aux ressources (tel que l’identifiant ISNI [8] pour les identités publiques) et la maintenance de vocabulaires et de référentiels de qualité et mutualisés (comme VIAF [9], le fichier virtuel international des autorités, auquel la BnF et l’ABES participent). De manière plus structurante encore, la stratégie de FRBRisation des catalogues soulève de nombreuses interrogations dans la profession dès lors qu’elle implique un changement de pratique dans le catalogage. De ce point de vue, le grand débat, depuis plusieurs années, porte sur l’adoption du code de catalogage RDA en France, question qui mobilise fortement les experts bibliographiques nationaux dans le cadre des groupes de travail technique et stratégique réunis sous l’égide de l’Afnor [10].

Les catalogueurs du futur

24En conclusion, que dire aux catalogueurs d’aujourd’hui qui s’interrogent sur leur futur ?

25• Qu’on aura encore besoin d’eux, mais qu’ils auront besoin d’évoluer dans leurs pratiques.

26• Que l’on continuera de cataloguer des ressources dans les bibliothèques, mais sans doute pas dans toutes, et seulement certaines ressources.

27• Que le traitement des documents portera moins sur leur description matérielle que sur l’analyse de leur contenu, en lien avec la maintenance de vocabulaires et de référentiels d’autorité partagés.

28• Que les opérations d’import et d’export de données et la gestion des liens à des jeux de données extérieurs, et les activités de négociation et d’administration de ces processus, constitueront un pan stratégique de la gestion de données.

29• Que les opérations de transformation, conversion et autres traitements automatisés des données en Marc vers le RDF vont tout aussi fortement mobiliser les professionnels, nécessitant l’appropriation d’outils nouveaux, probablement avant même de devoir envisager la production native selon le code RDA.

30• Que tous ces processus de traitement, en principe invisibles pour l’usager final, seront peut-être la face cachée d’une nouvelle forme de médiation en ligne, en partie automatisée, qui reste à explorer : les catalogueurs de l’ère numérique, à la frontière du « back » et du « front », deviendront peut-être les nouveaux médiateurs de la bibliothèque publique s’ils ont l’esprit assez ouvert pour enrichir et contextualiser leurs données normalisées en collaboration avec les usagers eux-mêmes. Ceux de la bibliothèque de recherche apprendront peut-être, de leur côté, à administrer les données brutes et les corpus numériques de la recherche.

31La gestion des métadonnées finira sans doute par échapper à l’idée même d’un « catalogue » monolithique aux visées strictement bibliographiques pour innerver tous les processus qui commandent et animent la bibliothèque de demain : signalement, médiation, gestion des droits, numérisation, préservation numérique, etc. Les défis ne manquent pas, mais ce sont de beaux défis. Parions qu’ils continueront de faire battre le « cœur de métier » des bibliothèques.

32Gildas Illien

Professionnels IST et données de la recherche : des discours incantatoires aux actions concrètes

33Recherche. Les métiers de l’IST ont déjà considérablement évolué, passant du traitement documentaire à la valorisation de l’information ou à son analyse en appui à la stratégie scientifique. Cet article témoigne du chemin parcouru par la fonction IST à l’Inra pour se mobiliser et gagner progressivement en légitimité sur le sujet « données de la recherche ».

34Nous avons récemment expliqué, dans un précédent article de cette revue [11], comment les professionnels IST de l’Inra, dans le cadre du projet FuturIST, avaient surmontés la désertion des bibliothèques et développer une offre de service renouvelée pour les scientifiques en s’appuyant sur des dispositifs de type « organisation apprenante ». En 2007, dans le cadre d’un séminaire de prospective FuturIST, une conférence visionnaire de Francis André - qui repositionnait les données de la recherche dans le périmètre de l’IST au même titre que les publications, les images, les vidéos et, surtout, soulignait le rôle que les documentalistes devaient avoir dans la curation des données, au plus près des communautés scientifiques - laissait un auditoire de documentalistes Inra perplexe. Pourquoi cette perplexité ? Nous pouvons avancer trois raisons : les documentalistes étaient de plus en plus éloignés des processus de recherche ; l’objet « donnée » lui-même semblait difficile à cerner entre données d’observation, images issues de séquenceur d’ADN, vidéo, etc. ; ils identifiaient difficilement ce que curation des données signifiait. Comment « curer » des choses auxquelles on n’a pas accès et qu’on ne connait pas ? Quelle légitimité avons-nous ? Les généticiens et les bio-informaticiens se sont organisés, ils n’ont pas besoin de nous !

Encore un nouveau défi

35Dans les années qui ont suivi, toutes les conférences ou lectures sur le sujet de la gestion des données de la recherche ont pris la forme d’injonctions incantatoires qui ont plutôt stérilisé toute velléité d’action. En particulier, les rapports mentionnant des nouveaux métiers tels que data scientist, data librarian, data manager n’ont pas permis aux documentalistes de se projeter dans ces nouveaux métiers dont les missions, activités ou compétences restaient mal définies.

36Quatre années ont passé avant que les « données de la recherche » questionnent à nouveau la fonction IST sans qu’il soit possible cette fois d’éviter le sujet : le conseil scientifique de l’Inra lançait une étude « gestion et partage des données de la recherche » sous l’impulsion de la présidente de l’institut interpellée par la data sharing policy du BBSRC [12], une des agences de financement de la recherche britannique.

Légitimité et compétences du cœur de métier

37Positionner d’emblée l’IST sur la curation de données est apparu très rapidement comme une erreur stratégique tant par rapport aux communautés scientifiques qui identifient difficilement la plus-value des documentalistes dans un environnement de science numérique que vis-à-vis des documentalistes, toujours dans le doute quant à leur capacité à gérer les données. Cette absence de légitimité, perçue ou vécue à tort ou à raison, était un véritable obstacle pour faire « entrer dans l’action » les professionnels IST sur les questions de gestion ou de partage des données. Il nous a donc fallu identifier ce qui pourrait consolider cette légitimité en revisitant leurs compétences dans trois domaines : l’open access, l’édition scientifique, la documentation.

38L’open access donne aux documentalistes plusieurs points d’ancrage pour penser « ouverture des données ». La déclaration de Berlin indique que ces données doivent être en libre accès au même titre que les publications : « Open access contributions include original scientific research results, raw data and metadata, source materials, digital representations of pictorial and graphical materials and scholarly multimedia material » [13]. Par ailleurs, les outils tels que DSpace sont utilisés pour gérer des entrepôts de données comme Dryad [14] qui héberge des jeux de données liées à des articles publiés dans des journaux. Les questions juridiques sous-jacentes à l’open access ont incité les documentalistes à mieux appréhender le droit et des outils tels que les Creative commons. On trouve ainsi dans le mouvement du libre accès à l’IST à la fois un cadre politique, des outils techniques ou juridiques qui préparent les documentalistes aux problématiques du partage des données.

39L’évolution de l’édition scientifique est une autre opportunité pour les professionnels IST de s’appuyer sur l’objet au cœur de leur métier : les publications. Les éditeurs se sont particulièrement intéressés aux données ces dernières années, y voyant un nouvel eldorado. Avec sa filiale Digital Science, le groupe MacMillan (éditeur de Nature) met à disposition de chaque chercheur un gigabyte sur la plateforme Figshare en attribuant un DOI à chaque jeu de données pour qu’il soit citable. Digital Science a même maintenant une offre Figshare pour les institutions. En 2012, Thomson Reuters lance le Data Citation Index pour comptabiliser les citations sur les data repositories, les data sets et les data studies comme il le fait pour les articles dans le Web of Science. Plusieurs revues exigent d’avoir accès aux données dans le processus de reviewing des articles, données qui deviennent par la suite des supplementary materials sur le site de la revue ou qui sont déposées dans des entrepôts de données thématiques avec un lien vers la publication. De nouveaux types de journaux apparaissent : les data journals[15] qui publient des articles décrivant des jeux de données. Au printemps 2014, Nature va lancer Scientific data[16] pour aider les chercheurs à publier, découvrir et réutiliser les données. Toutes ces initiatives interpellent les professionnels IST. Formalisons quelques questions :

40– Doit-il y avoir (y aura-t-il) des intermédiaires entre les producteurs de données scientifiques et les utilisateurs de ces données ? Si oui, quels sont-ils ? Les éditeurs, l’IST des organismes producteurs, des « médiateurs » au sein de chaque communauté scientifique ?

41Plus concrètement :

42– Quelle est la politique des éditeurs par rapport aux données ? Y a-t-il des mauvaises pratiques qui tendraient à en limiter l’accès ?

43– Comment citer les données et leurs producteurs ?

44– Quelle stratégie de dépôt des données pour assurer la pérennité d’accès ?

45– Comment évaluer les données ? Est-ce un nouveau produit de la recherche à considérer par les commissions d’évaluation ?

46– Faut-il stocker les données publiées dans les archives institutionnelles avec les articles scientifiques ou dans des entrepôts spécifiques ?

47– Comment être référencé dans le Data Citation Index ?

48Le besoin de rendre les données réutilisables par d’autres demande aux documentalistes d’investir un aspect plus technique de leur métier : celui des métadonnées, des référentiels terminologiques et de l’interopérabilité. Le Dublin Core est un esperanto des métadonnées et on retrouve ce socle enrichi d’autres descripteurs spécifiques au domaine dans plusieurs jeux de métadonnées (par exemple, Ecological Metada Language (EML) pour décrire les données en écologie) [17]. Les personnes recrutées sur le profil de « chargé de système d’information documentaire » [18] ayant une double compétence informatique/documentation ont toutes les connaissances pour travailler sur des projets d’entrepôt de données. Maîtriser les techniques du web sémantique est un atout supplémentaire.

Des actions concrètes

49Les professionnels IST sont donc légitimes pour « parler et agir » sur le sujet « donnée », que leur entrée soit via la définition de politique, l’édition, le juridique, l’open access ou la description de l’information. Parler de « curation de données », qui laisse supposer une intervention sur la donnée elle-même, nous semble inapproprié. Il s’agit plutôt de curation de métadonnées avec une intervention sur la qualité des descripteurs et des référentiels.

50À l’Inra, nous avons eu l’opportunité d’être impliqué dans le groupe de travail du conseil scientifique [19] puis dans l’élaboration de la politique de partage des données. La mise en œuvre de cette politique s’effectue actuellement dans une dynamique projet via des groupes rassemblant scientifiques, informaticiens et IST qui travaillent sur l’évaluation de notre patrimoine, la stratégie de valorisation et les outils et méthodes pour décrire, partager et réutiliser les données. Les professionnels IST traitent en particulier des questions listées plus haut dans le but de produire des supports qui permettront d’informer et de former les scientifiques. Ils étudient également comment mettre en œuvre les DOI et créer un annuaire des données de l’Inra.

51Ce retour d’expérience montre la diversité des possibilités d’action des professionnels IST, principalement sur le volet « partage » des données, du politique à l’opérationnel.

52Nous n’avons pas encore l’expérience d’intervention dans le processus de gestion des données et un prochain défi serait de positionner des compétences IST dans les data centers. Cela suppose que les documentalistes soient capables de sortir de leur « zone de confort » en intégrant bien toutes les dimensions de la science numérique. Leur formation, initiale ou continue, doit les y préparer. Pour l’Inra, la dynamique FuturIST continue à porter ses fruits, non seulement pour développer les compétences mais aussi pour anticiper les besoins.

53Odile Hologne

Web de données, big data, open data, quels rôles pour les documentalistes ?

54Enjeu. Avec l’apparition du Web il y a un peu plus de vingt ans, les pratiques des chercheurs en SHS concernant la réutilisation des données, devenues massivement numériques, ont évolué. De leur côté, les institutions scientifiques sont incitées à publier leurs données dans des formats échangeables et rapatriables dans les systèmes d’information. À partir du rapprochement de ces données auparavant indépendantes les unes des autres, une nouvelle production de sens apparaît. Les professionnels de l’information pourraient en devenir les interprètes et les porteurs…

55Dans cet article, nous utilisons le terme « document » pour désigner les publications (articles, mémoires, thèses) impliquant un acte éditorial et réservons le terme « données » aux images, fichiers informatiques issus de capteurs numériques (caméras, scanner 3D, enquêtes). Le terme « information » devra être entendu au sens atomique du terme, c’est-à-dire qu’il désignera des faits contenus dans des données ou décrits dans des documents. Ce propos liminaire est important car la définition de ces termes est différente suivant les communautés scientifiques.

56Les documents et données utilisés par les scientifiques pour « faire de la recherche » sont devenus numériques et les échanges de ces derniers se sont accélérés depuis l’apparition du Web. Échanger, diffuser et partager via le Web est aujourd’hui au cœur des pratiques des scientifiques et des étudiants. Dans un premier temps, le Web a été le support et le vecteur pour la diffusion des documents et des données qui restaient - pour un temps - au fond de bases de données documentaires, dans des systèmes plus ou moins fermés. Il s’agit de la « webification » des bases de données dont l’accès se fait par formulaires pour les humains et via des systèmes d’interopérabilité/API (dont OAI-PMH) pour les machines. Plus récemment, l’utilisation du Web comme une grande base de données mondiale a été rendue possible par la généralisation et l’utilisation des protocoles, langages, normalisations du Web lui-même ; on parle alors de données « dans » le Web (web de données). Associée au protocole HTTP, l’utilisation des URI et du modèle RDF transforme le Web en un gisement d’informations qu’il est possible de requêter directement à l’aide du langage SPARQL. Les informations y sont reliées entre elles par des relations de type URL (qui sont aussi des URI) composant ainsi des données interdépendantes les unes des autres. Cette « interopérabilité » au niveau des informations est le linked data.

Les promesses du web de données

57Là ou il fallait maîtriser plusieurs systèmes informatiques et documentaires fondés sur des API différentes entre elles, la promesse faite par le web de données et le linked data est de pouvoir décloisonner les bases de données et d’avoir une méthodologie mondiale pour diffuser, interroger, réutiliser les données et les informations dans l’idée de construire des documents plus riches. Dans le monde scientifique, cela permet, par exemple, de donner accès de façon normalisée - donc réexploitable par d’autres - aux données ayant été utilisées pour infirmer ou affirmer une hypothèse. Dans ce contexte, l’open data est fortement lié à l’administration de la preuve scientifique et nous assistons aujourd’hui, avec les techniques du web de données, à un profond changement dans les méthodologies de recherche. De plus en plus de chercheurs seront intéressés à refaire les démonstrations et donc à réutiliser les données. À ce jour, le « partage » des données scientifiques s’est majoritairement fait au travers d’interrogation de bases de données « sur » le Web (et non pas « dans » le Web), d’où le recours à de multiples API, plus ou moins ouvertes, mais toujours fortement liées à une vision purement informatique et, de ce fait, peu accessibles pour les métiers de l’information et de la documentation. De plus, les API évoluent dans le temps, leurs spécifications changent et impliquent donc un suivi important au niveau du système d’information documentaire pour continuer à « dialoguer » avec l’API sur laquelle est fondé le service que l’on propose (c’est particulièrement vrai des API servant à géolocaliser des données). La multiplication des API entraîne une quasi impossibilité de maintenir un outil qui exploiterait plusieurs dizaines de bases de données différentes. Dans les laboratoires de recherche en sciences humaines et sociales, la rareté des informaticiens reporte parfois sur les documentalistes et bibliothécaires le soin de proposer de tels outils. Mais il n’est pas forcément aisé de comprendre et suivre des spécifications techniques du domaine informatique. Les API des logiciels documentaires sont de bons vecteurs pour le partage des données à partir du moment où elles sont conçues avec une vision documentaire et pas uniquement informatique.

Un enjeu pour les métiers de l’IST

58L’environnement technologique de l’information scientifique et technique (IST) a donc « muté » depuis l’invention du Web. Là ou le seul signalement était suffisant, le Web a permis l’échange des documents et les chercheurs ont inventé de nouvelles manières de partager les résultats de la recherche : les archives ouvertes [20] en sont un exemple. Ayant accès aux articles, puis à des données et enfin à des moteurs de recherche performants et mondiaux, les pratiques de recherche d’information des chercheurs ont évolué. Le volume des données augmentant, la puissance des ordinateurs également, une certaine « autonomie » s’est installée chez les scientifiques (échanges directs, plate-formes web de publication de données), délaissant parfois certains savoir-faire des professionnels de l’IST : les aspects de structuration de l’information n’ont pas toujours été bien intégrés dans ces nouveaux outils. Même si la définition de « big data » ne peut pas être comparable, en volume, entre des données de physique des particules et des données d’histoire, les volumes des données accessibles via le Web sont de plus en plus importants. Hélas, ils ne sont pas toujours immédiatement compréhensibles du fait de métadonnées peu ou pas assez qualifiées pour des réutilisations ; ou encore par l’absence de référentiels réellement exploitables par manque de mise en relation les uns avec les autres. C’est plus largement tout le problème du mouvement de l’open data : un déluge de données « tableurs » mais un silence important quant au contexte de production, de validité des données, d’utilisations antérieures, d’intégrité, etc. Sans parler de la problématique des formats ouverts.

59Or, le web de données repose sur la fiabilité de l’information et donc sur une relation de confiance entre producteurs de données et utilisateurs ; ce que j’appelle l’interdépendance entre les données. Il y a là un formidable enjeu pour les métiers de l’IST qui doivent mieux réinvestir leurs savoir-faire dans cette évolution du Web.

Garantir la pérennité d’accès aux données

60La diffusion et la publication de documents et données structurées et la gestion de référentiels structurés (thésaurus, listes d’autorités, ontologies) dans le web de données sont des enjeux majeurs pour les documentalistes et bibliothécaires dans les années qui viennent. Maintenir un thésaurus ou un référentiel en RDF/SKOS qui sera utilisé et réutilisé en ligne doit faire partie des savoir-faire que ces métiers mettent à disposition dans les laboratoires, afin de garantir l’interdépendance entre les données d’archives et les publications par exemple. Il s’agit de valoriser les données structurées en proposant leur valeur scientifique dans les usages documentaires multiples, c’est-à-dire construire des responsabilités et garanties d’accès sur le long terme. Qui mieux que les documentalistes et bibliothécaires pourraient être les responsables de la pérennité de ces relations tissées entre les informations contenues dans les documents et les données ?

Isidore, projet d’accès unifié aux données de SHS

61C’est la proposition faite par Isidore [21], première plateforme d’enrichissement et d’accès aux données et documents ouverts de la recherche en sciences humaines et sociales. Conçue en 2010 par le TGE Adonis (aujourd’hui Huma-Num [22]) et le CCSD avec les savoir-faire d’un consortium d’industriels (Antidot, Sword et Mondéca), Isidore permet aux professionnels de l’information et de la documentation de valoriser thésaurus et référentiels en réalisant des enrichissements sémantiques sur les métadonnées moissonnées par Isidore. Il s’agit sans doute d’une première expérience dans ce sens, qui pourrait se décliner par exemple dans les collectivités territoriales, détentrices de masses de données importantes et de nombreux référentiels à ouvrir et à partager sur le Web. L’une des spécificités d’Isidore est qu’il utilise strictement les méthodes et techniques du web sémantique et du linked data pour proposer - dans une base de données RDF ou triple store - le résultat de ces métadonnées catégorisées et « augmentées » d’annotations. Isidore privilégie ainsi les informations structurées, tant pour les métadonnées et données qu’il moissonne que pour les référentiels qui permettent les enrichissements. Les professionnels de l’info-doc doivent donc accompagner en profondeur les enjeux de l’accès aux données. Il s’agit là de l’indispensable garantie de succès afin que ces masses de données soient réellement réutilisables, et ce par l’apport d’une contextualisation des données, par l’ajout de métadonnées, par la production d’enrichissements qui permettront de relier les informations entre elles et non simplement de les mettre à disposition. Car aujourd’hui, l’open data ressemble le plus souvent à une liste de catalogues de données comme on le faisait aux premières heures du web de vitrine 1.0.

62Stéphane Pouyllau

Les atouts du décisionnel pour mieux piloter l’action publique

63Stratégie. Au-delà du débat entre informaticiens et statisticiens, le développement des systèmes d’information décisionnels peut, à certaines conditions, contribuer à une évolution substantielle de la manière de piloter les politiques publiques.

64Les systèmes d’information (SI) décisionnels sont appelés à devenir des supports majeurs pour les fonctions d’aide à la décision en matière de politiques publiques. Ces fonctions - analyse de gestion, audit interne, évaluation, finance, etc. - ont en effet en commun de devoir s’appuyer sur des données fiabilisées et crédibles. Elles impliquent de mettre en présence les indicateurs issus des métiers, de les croiser avec de multiples informations de contexte ainsi qu’avec des données financières et des données issues des ressources humaines. Chacune d’elles intervient avec son prisme - pilotage par objectifs et priorités, contrôle et gestion des risques, étude sur les effets et l’utilité sociale, approche budgétaire et financière -, mais l’articulation de l’aide à la décision suppose la cohérence des informations exploitées.

65Au-delà du débat entre informaticiens et statisticiens, il s’agit d’enjeux de pilotage où se posent les questions de « stratégie de la décision ». Les directions générales des collectivités territoriales disposent de différents leviers d’aide à la décision qu’elles peuvent mobiliser en fonction de leurs besoins. A minima, pour conduire des politiques, elles peuvent se centrer sur le seul examen des données financières, dans une logique de pilotage par les moyens. Dans une telle approche, la déclinaison des objectifs des politiques publiques relève principalement d’une stratégie de communication institutionnelle.

66Au contraire, le déploiement d’un SI décisionnel [23] peut ouvrir des portes nouvelles pour le renforcement de l’intelligence politique de l’action publique, sous réserve bien sûr d’une réflexion approfondie sur ses contenus, d’une volonté bien assurée et de quelques moyens financiers et humains. À la lumière de l’expérience menée depuis plus de deux ans en Seine-Saint-Denis, qui aboutit au déploiement bien engagé d’un SI décisionnel plus riche que les solutions clefs en main habituellement proposées sur le marché, des premiers éléments stratégiques peuvent être résumés ici.

67Les atouts du SI décisionnel

68? La « convergence des données ». Là où les collectivités sont souvent prisonnières de solutions informatiques cloisonnées, qui génèrent d’ailleurs des coûts exorbitants, la mise en présence des données dans un espace largement accessible produit par elle-même du « décloisonnement ». Ainsi peut-on passer du rapprochement conjoncturel de données éparpillées, au gré d’une commande urgente ou d’une étude ponctuelle, à une mise en commun récurrente sur un spectre large de données. Par ailleurs, si la mise en place d’un écosystème logiciel, doté de fortes puissances d’automatisation, demeure toujours un investissement important, elle constitue également l’une des conditions d’une maîtrise de la croissance exponentielle des données. Elle ouvre ainsi vers des chemins nouveaux en terme de gisements de connaissances inédites et d’exploitation, et pose aussi des jalons pour des développements ultérieurs.

69? L’approfondissement de la « culture de la donnée ». Elle implique à la fois la compétence informatique et les métiers des politiques publiques. Mettre en place un système décisionnel, c’est nécessairement passer par une étape - longue et fastidieuse, mais aussi riche et prometteuse en terme de compréhension de l’action publique - d’expertise sur chaque indicateur. Il faut que cette démarche inclue une reconnaissance du caractère partiel des réalités représentées par les indicateurs, qu’elle assume les présentations sous forme de tableaux de bord et qu’elle exprime le besoin d’analyses qualitatives qui prennent en compte la subjectivité des acteurs.

70? Des avancées en terme de responsabilité des professionnels vis-à-vis du pilotage des politiques publiques. En effet, le développement du décisionnel contribue à poser autrement le problème difficile du continuum entre les éléments de contexte d’une politique, ses objectifs, ses moyens, ses réalisations et ses effets. Il permet de documenter les réalisations, appelle à consacrer ses efforts à la mise en regard des objectifs, des moyens et des effets, au lieu de consacrer une énergie démesurée à capter une information disparate, qui aboutit généralement à s’en tenir à une logique de bilan statique (au lieu d’une approche dynamique, voire prospective). Une démarche d’évaluation des politiques publiques peut alors tirer profit du décisionnel, et insuffler le passage d’une culture du constat, photographie de l’existant, à une dynamique de problématisation et de questionnements évaluatifs.

71Au total, et c’est là un enjeu majeur pour l’action publique, une telle logique permet de concevoir le pilotage des politiques publiques, non comme la réalisation d’un objectif financier complété de l’animation de ressources humaines, ce qui la différencie d’une logique d’entreprise du secteur privé, mais - à condition toutefois de la porter - comme la conduite d’une action dans et pour la société. Elle implique de surcroît une certaine maturité des rapports entre la sphère exécutive et administrative, permettant de neutraliser au plus tôt le procès en délégitimation du politique par la technique.

72Pour valider la puissance d’une telle approche, reste à considérer que les pilotes d’activités ne sont pas seulement l’équipe dirigeante de l’administration, vers laquelle les informations convergeraient sous la forme unique d’un système de reporting, mais l’ensemble des agents - cadres ou non - qui contribuent à la mise en œuvre d’une politique. À condition de prévoir une ouverture du système et un dispositif conséquent de formation, nous avons là un outil de déconcentration du pilotage, qui rapproche celui-ci du terrain, ce qui implique cependant d’être vigilant sur les modes de décision et le rôle de chacun : les élus sont en effet responsables des politiques devant les électeurs, auxquels ils rendent des comptes, et les responsabilités administratives ne sont pas les mêmes aux différents niveaux hiérarchiques.

73? La « transparence »vis-à-vis des acteurs des politiques publiques et des citoyens. En interne aux administrations concernées, la création d’un SI décisionnel décloisonne l’accès aux données, mettant à disposition une information substantielle auprès de l’ensemble des agents [24]. Vers les habitants d’un territoire, il devient ainsi aisé de mettre à disposition une information riche, dans une logique d’open data. Cela mérite de préciser que la promotion de l’Open data peut ainsi mettre de côté le fantasme technocratique d’une transparence absolue des données. Ce fantasme provoque des craintes légitimes pour le respect des libertés individuelles. De plus, on peut être sceptique sur le gain effectif de pouvoir des citoyens noyés par un immense flot d’informations (que certains ont par contre les moyens de traiter). Ainsi, l’open data pourrait être plutôt une ouverture maîtrisée des données, dans le respect de la protection des informations individuelles. L’anonymisation des données collectées par le système décisionnel, en amont même de leur intégration, pourrait en être l’un des principes majeurs.

Un rôle actif pour les professionnels de l’information

74Quant aux professionnels de la documentation, ils sont concernés à trois titres au moins par ces sujets. Premièrement, ils sont appelés à mieux structurer l’offre numérique, en distinguant précisément la provenance et les finalités des productions mises à disposition, tout particulièrement lorsque celles-ci sont des productions internes. La mutualisation des données et des analyses déjà produites par les professionnels est un champ encore largement sous-investi. Deuxièmement, ils peuvent prendre une part active aux chantiers décisionnels, qu’il s’agisse des activités récurrentes, où se jouent ces enjeux de capitalisation, ou des projets structurants, transversaux et innovants, de l’administration. Sur ce sujet, l’enjeu principal consiste à ce que les outils (étude comparative, analyse documentaire, etc.) soient au service non seulement de l’élévation de la culture générale du métier (ce qui est déjà le cas, et c’est bien), mais aussi au service du pilotage, local ou stratégique (ce qui est plus difficile car cela nécessite une bonne maîtrise des objectifs de l’action publique). Enfin, la relation de confiance entre les professionnels de la documentation et leurs collègues des services sera étayée par la place nouvelle de la ressource documentaire, distincte mais articulée aux fonctions d’aide à la décision.

75Le décisionnel peut aussi stimuler la mise en place de référentiels partagés, qui contribueront aux prochaines évolutions des SI métiers ainsi qu’à doter l’administration de langages communs. Notons que, dans une stratégie globale en matière de SI, c’est plus que jamais le travail coopératif entre les équipes techniques et les compétences métiers qui fournit la plus value indispensable à la réussite des projets. Cela confirme, s’il en était besoin, que la coopération et le partage doivent être au cœur des stratégies de modernisation du service public.

76Gilles Alfonsi

77Jean-Pierre Troeira

Focus. Faire vivre les données. 1 : formats et modèles

78Modèle. La construction d’une grille commune de publication des données et de représentation des connaissances, souple, adaptable, évolutive et non propriétaire est en cours ; elle forme un bien commun disponible librement. Cet article tente de donner un aperçu pédagogique de cette œuvre collective que sont les modèles de données dans le web sémantique.

79Nous sommes en train de construire collectivement un objet qui n’a jamais existé dans l’histoire, il s’agit d’un ensemble de modèles [25] qui permettent de représenter et publier tout type de données (ou en tout cas une très grande partie) dans des formats ouverts autorisant une réutilisation des données de manière simple, économique, pérenne et indépendante de tout logiciel propriétaire.

80La spécialisation, la complémentarité et la connexion des différents modèles unitaires permet de les assembler pour répondre aux besoins particuliers de chacun. Les modèles couvrent tous les domaines d’activité faisant ainsi émerger un ensemble de données compatibles et complémentaires issues des institutions culturelles, de la recherche, de l’éducation, des citoyens, des entreprises, des administrations, etc.

Pourquoi utiliser des modèles partagés ?

81Les professionnels de l’info-doc et les bibliothécaires ont depuis longtemps une réponse à cette question puisqu’ils ont une longue histoire d’utilisation de formats normalisés pour la description des ouvrages et documents. Les modèles sont des objets techniques complexes dont la création demande un effort de conception mobilisant les experts du domaine et des spécialistes de la modélisation. Par la suite, le modèle devra être commenté, documenté et maintenu. Seul un travail communautaire et collaboratif permet d’assurer la réalisation de ces tâches avec des gages de qualité et de pérennité. Ces modèles mis à disposition de la communauté avec des licences d’utilisation ouvertes permettent aux projets de disposer immédiatement d’une proposition documentée à discuter et enrichir en fonction de leurs besoins.

Le web sémantique : des innovations majeures dans la gestion de modèles partagés

82Le projet du web sémantique apporte deux innovations majeures dans la conception et la gestion des modèles partagés. Les modèles ne sont pas cantonnés à un secteur d’activité : cela permet de décloisonner la réflexion sur chaque modèle, de le rendre plus universel, et surtout d’intégrer facilement des données provenant de différents domaines. On pourra ainsi disposer, sous une modélisation commune (FRBR), des descriptions d’ouvrages de la BnF, de descriptions d’œuvres musicales d’un site collaboratif comme de descriptions de jurisprudences européennes. Les modèles se complètent les uns les autres : ceci permet de disposer d’une suite de modélisations dans laquelle on viendra faire son marché pour couvrir son besoin. Ainsi, dans un projet de publication des résultats d’un programme de recherche, on utilisera le modèle Dublin Core (DCE) pour décrire des articles scientifiques publiés, le modèle « Friend of a friend » (FOAF)pour décrire les relations entre les auteurs, leurs institutions, leurs thématiques de travail et, finalement, le modèle Vocabulary for biographical information (BIO) pour décrire la biographie des auteurs. Ces trois modèles comprennent déjà les connexions entre eux, par exemple la relation entre le champ « author » du modèle DCE, le champ « agent » du modèle FOAF et le champ « agent » du modèle BIO.

La possibilité de réutiliser les données publiées à un coût minimal

83Les technologies utilisées permettent d’adapter les modèles publics aux besoins spécifiques de chacun. Il est possible d’enrichir un modèle avec des propriétés venant d’un autre modèle. Par exemple, pour une liste d’autorité de personnes basée sur la modélisation Skos, on ajoutera des propriétés venant du modèle FOAF pour gérer la civilité, le prénom, le nom et le surnom des personnes. On peut trouver dans le Web une documentation complète et des outils prêts à l’emploi, par exemple un logiciel de publication d’organigrammes dans le cas d’un projet d’annuaire d’une administration pour lequel on aurait choisi le modèle « Core organization ontology ». Un autre type d’adaptation est d’ajouter au modèle des propriétés qui répondent à un besoin interne très spécifique. Ces propriétés seront automatiquement ignorées ou fusionnées avec d’autres par quelqu’un qui exploiterait les données en se basant sur le modèle standard, préservant ainsi la réutilisabilité des données publiées.

Des modèles en concurrence

84Dans l’univers du web sémantique, plusieurs modèles couvrant à peu près le même besoin peuvent coexister. Jusqu’à aujourd’hui, les modèles étaient publiés par une communauté professionnelle pour leur usage propre, il n’y avait donc qu’un modèle préconisé à la fois pour un usage donné. Lorsque des initiatives de création d’une ontologie portant sur des domaines proches démarrent sans coordination préalable, les modèles se retrouvent en « concurrence ». Au bout d’un certain temps, l’un des modèles prévaut en raison d’une meilleure conception, de son adoption rapide par une communauté, d’une pérennité qui semble mieux assurée, etc. Ce peu de coordination apparent permet une grande souplesse d’adaptation de l’écosystème des modèles et une grande réactivité aux besoins de toutes les communautés professionnelles. Cette multiplicité de modèles dans certains domaines nécessite de faire des choix quand on veut publier des données ou à jongler avec deux voire trois modèles quand on doit exploiter des données.

S’appuyer sur un annuaire des modèles et des statistiques d’utilisation

85Choisir des modèles pour publier les données de son organisation - bibliographies, biographies, annuaire d’une administration, thésaurus spécialisé, données d’observation scientifique, inventaire du patrimoine d’une région, description de ressources touristiques, budget d’une collectivité, etc. - est une activité en général confiée aux professionnels de l’info-doc ou aux bibliothécaires. Il faut alors choisir les un, deux, trois, quatre… modèles qui, combinés, permettront de publier les données. L’étude de projets similaires est en général une bonne source d’inspiration pour le choix des modèles. L’annuaire Linked open vocabularies (LOV) [26] permet d’aller plus loin en consultant une liste des modèles les plus utilisés, leur documentation, les relations entre les modèles, les statistiques d’utilisation.

86L’examen de l’inventaire de modèles dans LOV fait apparaître quelques grandes familles de modèles en fonction de leur usage :

  • Les modèles qui permettent de décrire des œuvres et des contenus. Ils permettent de gérer des fiches bibliographiques, d’ajouter des métadonnées au document telle que les licences d’utilisation associée, de décrire un œuvre dans un musée. On peut citer Dublin Core [27], FRBR [28], Cidoc [29], Creative Commons Rights Expression Language [30], Music Ontology [31].
  • Les modèles qui permettent de décrire des référentiels, taxonomies, thésaurus, listes d’autorité : SKOS [32], ISO 25964 [33] ou RDAG3 [34].
  • Les modèles qui décrivent les personnes, les groupes, les organisations, les relations sociales tels que : FOAF [35], Core Organization Ontology [36], Vocabulary for Biographical Information [37].
  • Les modèles décrivant le temps (par exemple, Time Ontology [38]).
  • Les modèles pour l’espace, la géographie (par exemple, The Geonames Ontology [39]).
  • Les modèles pour la description des événements (par exemple, The Event Ontology [40]).
Ces modèles sont très génériques et donc utilisés dans des contextes très variés.

87Il existe également de nombreux modèles spécifiques à un domaine et qui n’ont pas de vocation « universelle ». À titre d’exemple, on peut citer The Good Relations Ontology for Semantic Web utilisée pour le e-commerce [41] ou, encore plus spécialisé, The Car Options Ontology [42] pour la description des options dans une voiture.

De nouvelles compétences pour les professionnels de l’information

88La connaissance des modèles utilisés dans son domaine d’activité ainsi que de quelques projets de publication ou de réutilisation de données constitue un premier niveau de savoir que les professionnels de l’info-doc peuvent acquérir. Il permet d’être assez compétent pour comprendre les jeux de données disponibles dans le Web dans son domaine d’activité comme de participer aux choix de modèles de données avec les équipes informatiques et les métiers.

89Un second niveau de compétence est de savoir choisir et combiner des modèles pour répondre à un besoin de publication en y apportant le cas échéant quelques enrichissements spécifiques. Cette compétence s’acquiert en général au travers d’une expérience concrète de projet accompagné par un consultant spécialisé ou une équipe plus expérimentée ainsi que par des échanges avec des collègues d’autres institutions.

90Un troisième niveau d’expertise est nécessaire pour créer ou faire évoluer des modèles standards. Il ne s’agit en général pas d’un travail solitaire, mais d’un travail collaboratif avec les différents experts du sujet au niveau international. On peut aborder ce type de réalisation en commençant par faire des relectures et des suggestions sur des travaux de modélisation en cours dans un domaine que l’on maîtrise bien.

91Jean Delahousse

Focus. Faire vivre les données. 2 : référentiels et terminologies

92Référentiel. La gestion des terminologies, indispensable au bon fonctionnement des logiques de type web de données/web sémantique, relève, de la part des professionnels de l’information, d’une logique de gestion des « data ». Au-delà des activités classiques de gestion, conservation et mise à disposition des réservoirs de données, leurs préoccupations se tournent désormais vers la modélisation des ressources terminologiques, orientée par les enjeux de réutilisation et d’interopérabilité des données.

93Le projet du web de données vise à optimiser l’utilisation des dispositifs d’info-communication par les machines elles-mêmes en prenant appui sur une batterie de technologies dédiées (le « millefeuille » ou « layer cake » [43]). Cette infrastructure réseautée se modélise en une masse considérable de catégories, de concepts et de relations, organisés en « ontologies » et/ou « terminologies » selon le vocable choisi dans ce monde technique. Ces terminologies, difficiles pour un novice à identifier sur ce millefeuille, forment pourtant la partie visible et sensible pour l’homme. Actionnable par lui, elles créent un lien entre les machines auxquelles le web de données est dédié mais aussi entre les utilisateurs à qui s’adressent les ressources du Web (contenu). C’est dire leur importance.

Vous avez dit terminologies ?

94Il convient de noter d’emblée que le terme « terminologie » embarrasse fortement la communauté des professionnels de l’information-documentation, celle-ci ayant toujours réservé l’usage de ce terme aux productions des terminologues Mais la convergence numérique frappe aussi le domaine des terminologies, que celles-ci soient produites dans un contexte de rédaction ou de traduction (par un terminologue), pour des systèmes de recherche documentaire (par un gestionnaire de vocabulaires documentaires) ou dans le cadre d’un dispositif exploitant des outils de traitement automatique de la langue (par un linguiste informaticien). Une fois construites - automatiquement, manuellement ou selon un mode mixte -, ces ressources terminologiques sont maintenues, étendues ou restructurées suivant les besoins, dans tous les cas évaluées et qualifiées dans le temps.

95Faisant abstraction ici de la démarche de conduite de changement pourtant cruciale dans la (re)conception des projets liés à la gestion des connaissances, penchons-nous sur la cible - les terminologies et les référentiels - et sur le pilotage et la gestion courante de ces dispositifs sémantiques, entre production et usages.

Le défi de l’ouverture au web

96Passer d’une poignée de vocabulaires contrôlés à une diversité de terminologies dites « ouvertes » constitue un réel défi pour les gestionnaires de ces terminologies et les responsables des dispositifs d’info-communication. Les premiers sont utilisés dans des écosystèmes clairement définis et maîtrisés où l’humain joue le rôle principal en effectuant lui-même certains ajustements sémantiques. Alors que les secondes sont exposées sous des formats standardisés exploitables par des communautés culturelles et linguistiques variées dans un contexte où la machine prend une place essentielle.

97Un simple regard sur le modèle de données de la nouvelle version de la norme sur les thésaurus [44] montre l’extension du nombre de méta-informations nécessaires à une exploitation plus efficiente de ces vocabulaires, à la fois par des machines et par des humains. À ce noyau de méta-informations centré sur le vocabulaire lui-même et enrichi d’une variété d’attributs paramétrables, deux autres catégories de données sont utilisées pour la gestion courante de ces réservoirs : des données d’alignement reliant les entrées de ces répertoires terminologiques à d’autres vocabulaires autorisant ainsi une exploitation plus transparente entre applications (interopérabilité), ainsi que des données de gestion participant au maintien dans le temps de la qualité de ces ensembles terminologiques. Sur ce dernier plan, nous n’en sommes encore qu’au balbutiement.

98Les gestionnaires des langages documentaires ont toujours eu des activités de nettoyage, enrichissement et suivi tenant compte des usages en matière de recherche et de la réalité documentaire. Mais il faut bien le dire : la progression des techniques statistiques et linguistiques et leur intégration aux moteurs de recherche avaient donné un coup de frein à ces activités, conduisant d’ailleurs dans certains secteurs à une baisse notable de la qualité d’accès aux données documentaires et à une dilution de ces activités et compétences liées aux vocabulaires.

99Vingt ans après les débuts du Web, ces activités reprennent sur des bases renouvelées qui associent l’ancien et le nouveau. Les activités de gestion, de conservation et de mise à disposition de ces réservoirs s’articulent à des activités renforcées de modélisation orientées par les enjeux de réutilisation et d’interopérabilité.

100S’ouvrant sur une variété d’applications et d’usage, des activités de surveillance de ces vocabulaires et de leurs environnements normatifs se développent, tandis que celles d’évaluation et de suivi se renforcent [45]. Ces travaux opérationnels sur les données terminologiques sont complétés par des activités de nature pédagogique ou éditoriale (documentation) et par un rôle de spécialiste communicant au sein de différents collectifs - utilisateurs, autres gestionnaires terminologiques, informaticiens, etc.

Quel rôle pour ces terminologies ?

101Le plus visible dans le monde des terminologies telles que définies ici reste bien sûr la mise en musique aux couleurs du Web de données - modélisation OWL et encodage RDF, et plus encore les identifiants pérennes et actionnables, ajoutant d’autres données aux données terminologiques pour les rendre acceptables pour les machines. Mais cette forêt de données ne doit pas masquer les changements à opérer sur notre perception même du rôle de ces terminologies et de leurs usages, changements induits par le web de données et de façon plus générale le Web.

102Pour donner la mesure de ces changements, prenons un exemple très simple. Si, pour un indexeur, lire à la suite du nom d’une personne ses dates de naissance/décès ou la fonction de celle-ci est suffisant dans sa tâche de sélection d’un nom au sein d’une liste, en revanche, pour offrir des filtres efficaces en recherche documentaire, ces informations devront être structurées et encodées de façon appropriée, dates et fonctions devenant à leur tour des (méta)données au sein de ce référentiel.

103Si l’utilisation de métalangages comme OWL ou RDF donne une impression d’unicité, les référentiels terminologiques, leurs compositions, leurs usages et les règles de gestion mises en œuvre peuvent varier fortement suivant le contexte et le périmètre du projet.

104Nous évoquerons trois contextes. Le projet peut être effectivement centré sur une mise à disposition DANS le web de données documentaires et terminologiques associées, les données terminologiques (nom des auteurs par exemple) devenant à leur tour des données documentaires (fiche bio d’un auteur), comme cela est le cas par exemple avec le portail data.bnf.fr.

105Mais le Web constituant plus fréquemment un seul des modes de diffusion possibles des ressources, le déploiement de référentiels terminologiques vise alors à soutenir une variété d’activités, dont celle de production de ressources pour des communautés professionnelles particulières [46] - agriculture (AIMS), économie et statistiques (METIS), enquêtes en SHS (DDI), enseignement scolaire (ScoLOMFR), santé [47], astronomie (IVOA), pressemédia (IPTC), etc. -, les ressources produites pouvant être (ou non) déployées dans le web de données.

106Dans ces environnements professionnels, les terminologies constituent un composant d’un référentiel sémantique métier d’usage plus large, incorporant d’autres données et règles comme pour le portail de l’International Virtual Observatory Alliance (IVOA) : le référentiel terminologique se réfère à un référentiel plus global.Ces ressources terminologiques et les référentiels qui les intègrent ne sont pas toujours aujourd’hui aux couleurs du web de données, même si elles s’en approchent.

Des référentiels applicatifs

107Aux deux contextes évoqués ci-dessus s’ajoute un troisième niveau d’intervention au plus près d’une communauté particulière ou d’une application. Les projets ici combinent, de façon souvent partielle, différents schémas de métadonnées et terminologies de référence aboutissant à des profils d’application adaptés à une entreprise, une application, un domaine particulier. En effet, tous les contextes professionnels, en raison de spécificités culturelles et terminologiques ou d’un environnement technologique et administratif éloigné des principes du web de données, ne peuvent fonder aujourd’hui leur architecture fonctionnelle sur un usage direct de ressources dans le web de données, comme c’est le cas pour le portail Histoire des arts [48]. La construction de ces référentiels applicatifs à partir de référentiels plus généraux [49] fait ainsi jaillir des besoins fonctionnels [50] et des exigences techniques particulières sur le terrain.

108Des questions urgentes à traiter si l’on souhaite favoriser l’utilisation la plus large de référentiels terminologiques mutualisés.

109Pour assurer fluidité et pertinence dans les systèmes d’information, on note une nette montée en puissance d’activités autour des données terminologiques elles-mêmes. En se focalisant sur cette gestion de données, on risque toutefois de perdre de vue les usages et leurs évolutions dans le temps. Un tel gestionnaire doit ainsi impérativement inscrire son action sur des référentiels terminologiques en usage.

110Sylvie Dalbin

Le traitement sémantique des données

111Outil. L’éclairage nouveau porté sur la donnée ne doit pas masquer le fait que les techniques d’extraction, connues sous l’appellation de text mining ou data mining, sont à l’œuvre depuis plus de vingt ans. Dans cet article, l’une des sociétés françaises connues dans ce domaine évoque la façon dont le regard des clients a évolué.

112Les projets de text mining supposent de rapprocher les compétences propres aux experts dans le domaine de l’expertise linguistique informatique et celles des clients avec leur connaissance métier. Les technologies utilisées le sont fréquemment dans le contexte d’un dialogue avec d’autres applications, que ce soit des moteurs de recherche, des bases de données, des portails ou des outils de restitution.

113L’accessibilité à des sources de données ouvertes, telles que des vocabulaires contrôlés ou des taxonomies, permet de se rapprocher des compétences métier des clients et de leur apporter un regard extérieur sur leur domaine. Ces sources leur offrent aussi un appui sur des référentiels standards liés à leur cœur de métier qui sont autant d’ouverture pour leur faciliter la connexion avec d’autres sources d’information et de clients.

L’entreprise Temis

Temis est un éditeur de logiciel de text mining (traitement sémantique des données, extraction d’information métier). Aujourd’hui, la société compte 75 employés répartis sur cinq pays (France, États-Unis, Canada, Allemagne et Angleterre). Au total, Temis dispose de 19 consultants fonctionnels et/ou techniques répartis sur l’Europe et l’Amérique du Nord. Leur rôle est d’accompagner ses partenaires et/ou ses clients dans le déploiement ou l’intégration des solutions de text mining développées par Temis sous la marque générique Luxid.

Organiser le projet

114Il est essentiel de mettre en place une organisation projet lors de l’implémentation de techniques de data management dans une entreprise. En fonction de la taille du projet, un chef de projet ou un directeur de projet est requis pour piloter l’opération. Dans tous les cas, il est épaulé par au moins un consultant fonctionnel et un consultant technique dans la mesure où les traitements sémantiques requièrent une forte proximité avec les experts métier du client, qui sont systématiquement consultés dans la validation finale des résultats, garants de la mise en valeur de leur expertise. D’un point de vue organisationnel, Temis exécute des projets selon deux familles de méthodes de développement logiciel : méthode de développement en cascade ou en V ou méthode agile comme Scrum.

115Le choix de la méthode la plus appropriée dépend du contexte du projet bien que la méthode agile est maintenant l’une des plus communément acceptées pour les traitements sémantiques. Ces deux méthodes s’intègrent dans un cadre général de pilotage de projets avec les phases clés suivantes :

116Lancement et planning : analyse des besoins, conception et planning (correspond à la phase d’analyse des besoins dans le cadre du cycle de développement en V et au Sprint 0 dans le cadre de la méthode Scrum).

117Exécution et livraison : développements, tests unitaires et livraison pour la recette métier. Cette phase peut être déclinée sous forme de lots ou de sprints, selon la méthodologie projet choisie.

118Fin de projet et support : recette métier et transfert au service Support de Temis.

119Le projet débute lors d’une réunion de lancement rassemblant tous les acteurs impliqués dans le projet. L’objectif de cette première réunion consiste à définir le déroulement détaillé du projet.

Cycle de vie d’un projet

figure im1

Cycle de vie d’un projet

Mettre en œuvre une application

120Les phases traditionnelles de développement sont effectuées en séquentiel les unes après les autres, avec un retour sur les précédentes, voire en début de cycle.

121• Le processus de développement utilisant un cycle en cascade exécute des phases qui ont pour caractéristiques :

  • de produire des livrables dont le périmètre est défini au préalable ;
  • de se clore à une date précise ;
  • de ne se terminer que lorsque les livrables sont jugés satisfaisants lors d’une étape de recette.
• Scrum est une méthode agile qui s’appuie sur le découpage d’un projet en incréments, nommés « sprint » ou itération, avec les caractéristiques suivantes :
  • elle repose sur un fonctionnement itératif et incrémental avec plusieurs cycles appliqués aux activités du projet (spécifications, réalisations, documentation, etc.) ;
  • elle est conçue pour s’adapter rapidement aux évolutions et aux demandes du client ;
  • elle se concentre sur la valeur métier des fonctionnalités.
Scrum fournit des rituels durant lesquels l’adaptation aux évolutions et aux demandes du client est possible. Il s’agit de la réunion de planification de sprints, de la « mêlée quotidienne », de la revue de sprints ainsi que de la réunion de bilan de sprints.

122Elle définit trois rôles : le propriétaire du produit (product owner), le Scrum master (dont le rôle est comparable à celui du chef de projet) et l’équipe recouvrant plusieurs métiers. Elle utilise différents artefacts comme le backlog produit qui répertorie les fonctionnalités, priorisées par valeur métier, et le backlog de sprint qui correspond à la liste des items ou fonctionnalités à implémenter sur un sprint.

123La structuration des données en vue de réaliser rapidement une application pour des utilisateurs finals passe obligatoirement par une modélisation du métier de l’entreprise. Cela se fait nécessairement avec des personnes ayant cette connaissance. Il en est de même à l’autre bout de la chaîne pour la restitution et la visualisation à destination des utilisateurs/consommateurs visés.

Prendre en compte les besoins de l’utilisateur

124Aujourd’hui, les projets d’entreprises débutent souvent par un appel d’offre qui donne les lignes directrices du projet. La rédaction des appels d’offre oblige l’industriel à réaliser en interne un premier travail important sur l’identification des besoins de l’utilisateur final, des besoins de processus de traitement et de validation ainsi qu’une adaptation à la terminologie du secteur du traitement de données. Les personnels de l’entreprise qui ont participé à cette première étape jouent souvent un rôle lors du démarrage du projet.

125Afin d’établir une bonne description des attentes en matière de gestion de projet ou de gouvernance, il est conseillé d’avoir une bonne connaissance des systèmes d’information et des flux de données. Comme pour tout projet, la motivation des utilisateurs et une implication forte du management de l’entreprise sont gages de réussite.

126Il n’est pas nécessaire que le client ait une compétence a priori dans le domaine du traitement sémantique des données. Il peut acquérir une certaine compétence durant la mise en place du projet. Inversement, s’il n’est pas forcément indispensable que les consultants soient experts du métier du client, il est de plus en plus apprécié d’apporter un certain regard métier pour faciliter l’autonomie de l’organisation projet en regard d’équipes d’experts souvent forts sollicités. Le niveau de validation fonctionnelle ainsi demandé aux experts monte en qualité et les travaux de validation unitaires peuvent être réalisés par nos équipes de consultants, dans les limites du domaine à appréhender.

127En terme de connaissances opérationnelles, il est indispensable de comprendre l’écosystème du client au regard de la chaîne de production d’information, depuis les sources de données jusqu’à l’exploitation de celles-ci dans les produits finals. À titre d’exemple, le processus éditorial d’un éditeur doit être considéré dès la phase de conception du traitement sémantique pour apporter les réponses voulues aux rédacteurs ou à ceux qui exploitent l’information que nous enrichissons. Enfin, il est important que l’entreprise puisse mettre en place des jeux de test de référence pour contrôler la qualité des résultats et les améliorations durant la vie du projet.

128L’implication de la communauté Luxid est par ailleurs un atout important en matière de partage et de diffusion de la connaissance [51]. Elle joue également un rôle éducatif fort par l’utilisation de techniques d’e-learning, de fiches de synthèse et de vidéos ciblées. La communauté permet d’accompagner les équipes du client dans les mois qui suivent la mise en production du projet.

129Ursula von Rekowski

130Christophe Aubry

131Charles Huot

Notes

bb.footer.alt.logo.cairn

Cairn.info, plateforme de référence pour les publications scientifiques francophones, vise à favoriser la découverte d’une recherche de qualité tout en cultivant l’indépendance et la diversité des acteurs de l’écosystème du savoir.

Avec le soutien de

Retrouvez Cairn.info sur

18.97.14.80

Accès institutions

Rechercher

Toutes les institutions