Notes
1 ReLIRE [1] est un dispositif légal original, fruit des travaux liant la politique publique et l’interprofession du livre à l’ère du numérique. Il permet de redonner une vie numérique [2], commerciale, ainsi qu’à visée patrimoniale à l’important gisement de livres du XXe siècle qui ne sont plus diffusés commercialement sous forme imprimée alors que toujours sous droits d’auteur [3]. L’estimation, en 2013, du ministère de la Culture et de la Communication, était de 500 000 ouvrages concernés. Les ventes sont réalisées par des e-librairies auprès du grand public ainsi que pour les bibliothèques, la société FeniXX étant l’opérateur technique et commercial du projet de numérisation/diffusion/distribution des livres indisponibles du XXe siècle. Les ebooks sont par ailleurs accessibles sur Gallica intra-muros ainsi que pour l’interface en ligne, en « feuilletage partiel [...] puis [en] consultation intégrale au fur et à mesure de l’entrée des livres dans le domaine public » [4].
2 La loi n° 2012-287 du 1er mars 2012 relative à l’exploitation numérique des livres indisponibles du XXe siècle introduit un aménagement de l’exercice du droit d’auteur et « rend ainsi possible la numérisation de ces livres en évitant le réexamen de chaque contrat d’édition au cas par cas » [5]. Ainsi, le législateur autorise le transfert de l’exercice des droits numériques à une société de gestion collective, la Sofia [6], si l’auteur, ses ayants droits ou l’éditeur du livre ne s’y opposent pas. C’est alors à la Bibliothèque nationale de France qu’est confiée la responsabilité de constituer et diffuser sur le Web le registre des livres indisponibles du XXe siècle, alimenté le 21 mars de chaque année par une nouvelle liste d’ouvrages. Le ministère de la Culture et de la Communication assure quant à lui la communication autour du dispositif [7].
Pourquoi lier toutes les éditions d’un livre ?
3 Pour permettre l’application de la loi, l’équipe projet ReLIRE de la BnF a choisi de lier, en termes de structuration et de représentation de l’information, toutes les éditions d’un livre. D’une part, ces données liées servent à vérifier automatiquement l’indisponibilité commerciale d’un livre à travers toutes ses éditions, par croisement avec les données du secteur commercial du livre. D’autre part, elles permettent aux auteurs, ayants droits et éditeurs de demander le retrait du dispositif d’une ou de toutes les éditions d’un livre.
Comment lier ces données ?
4 Tout d’abord, il convient de bien définir ce que l’on entend, au niveau conceptuel, par regroupement d’éditions en œuvre. Dans le cadre de la loi, la notion d’œuvre est à considérer au niveau de l’édition d’un livre. Ainsi, par exemple, un recueil constitue une œuvre alors que ses parties éditées séparément en sont d’autres. L’œuvre a donc ici un sens différent de celui employé dans le modèle FRBR qui s’attache à caractériser chaque création originale de l’esprit au sein d’un document [8].
5 Pour fabriquer ces liens automatiquement, des travaux ont été menés afin d’utiliser l’application employée à la BnF pour l’alignement de référentiels et le regroupement bibliographique rétrospectif sur data.bnf. Cela a débouché, dans le cadre d’une organisation agile, sur l’évolution rapide de ce dispositif pour répondre aux besoins spécifiques du projet et améliorer la qualité des regroupements. Des compétences métiers et informatiques ont été mobilisées de manière transverse et complémentaire. D’un côté, nous avons analysé les données bibliographiques du catalogue général de la BnF en mobilisant notre connaissance du format Intermarc ainsi que de l’histoire des pratiques de catalogage. De l’autre, nous avons spécifié, fait développé et testé de nouvelles fonctionnalités favorisant la comparaison de titres semblables malgré les contraintes liées à la variabilité des données (par exemple, règles de nettoyage des mentions de responsabilité dans les titres, concaténation et répétition de zones et sous-zones pour construire des titres).
6 Le fonctionnement simplifié de l’application est le suivant.
- Constituer la population de titres avant la tentative de correspondance selon le workflow suivant : notices d’auteurs > notices bibliographiques liées (codes de fonctions) > notices conservées > zones de titres conservées > titres construits et transformés.
- Rapprocher les titres similaires à l’aide de méthodes de calculs de similarité sur les chaînes de caractères, appliquées à une représentation matricielle des titres. L’un des algorithmes utilisé, Min Hashing, mesure le nombre d’éléments que deux ensembles ont en commun par rapport au nombre d’éléments singuliers total, ce qui équivaut à la distance de Jaccard [9]. Un seuil de similarité est paramétrable selon que l’on veuille être plus conservateur ou tolérant par rapport à l’acceptation des différences au sein des entités que l’on souhaite rapprocher.
- Créer des clusters avec les notices d’un même auteur ayant des titres qui ont « matchés ».
7 L’idée suivie a été d’injecter, dans l’application, de l’intelligence métier basée sur la connaissance des données, en complément de la puissance computationnelle des algorithmes de rapprochement.
Quelle valeur créée par ce regroupement ?
8 Les données liées entre les éditions d’un livre offrent un contrat de confiance implicite à l’utilisateur sur la promesse d’exhaustivité du regroupement de ces éditions et permettent aux usagers du registre d’exercer pleinement leurs droits (voir illustration). Au niveau du système d’information, une nouvelle entité conceptuelle est systématiquement formalisée, l’œuvre. C’est par celle-ci que sont exprimées les données liées, l’œuvre étant pointée dans chaque édition. Cette structuration d’information ouvre de nouvelles perspectives de traitement de données en masse via l’exploitation des métadonnées liées.
9 Cette démarche de données liées constitue également une pierre à l’édifice de construction de réseaux de liens entre ressources descriptives, projet de data.bnf sur le web de données. Il sera intéressant de suivre et/ou de participer aux usages faits de ces réseaux de données liées ouverts, en questionnant notamment l’émergence de nouveaux services développés par et pour quelles communautés.