Alexandre Lemaire, Partie 1 : « Les métadonnées bibliographiques sont aujourd’hui repensées selon les besoins des usagers. »
Nous entendons de plus en plus parler des métadonnées, outil indispensable à la mise en avant d’informations précises sur le Web et qui facilitent les recherches des usagers. Dans les bibliothèques, ces métadonnées sont utilisées depuis longtemps déjà et connaissent des évolutions liées aux nouvelles possibilités qu’offrent l’informatique et le Web. Pour mieux comprendre les raisons et enjeux de telles évolutions, nous avons abordé le sujet en deux temps avec Alexandre Lemaire, membre du service de la Lecture publique du ministère de la Fédération Wallonie-Bruxelles. Voici la première partie de cette rencontre qui apporte des éclaircissements théoriques à propos du catalogue et des métadonnées en bibliothèque.
Comment s’organise un catalogue de bibliothèque et quels sont les formats de métadonnées les plus répandus ?
Dans un catalogue traditionnel, on retrouve trois types de données. Il y a d’abord les notices bibliographiques qui reprennent les informations concernant une édition spécifique d’une œuvre. Elles se composent de zones contenant des informations comme le titre ou la collection, le nombre de pages,… ainsi que des zones clés, à savoir par exemple l’auteur, le(s) sujet(s), etc., reliées à un vocabulaire contrôlé qui réfère à des fichiers d’autorité, second type de données du catalogue. Lorsque le bibliothécaire effectue une recherche, il ne peut donc introduire ce qu’il veut et sélectionne l’information à partir d’une liste préexistante (nommée « fichier d’autorité »). Ceci peut paraître une contrainte mais le résultat tient à ce qu’on supprime ainsi les problèmes de synonymie et d’homonymie. Par exemple, un usager qui rechercherait des documents sur l’animal « jaguar » ne se verra pas proposer toute une série de documents sur les voitures « jaguar » ; de même, quelqu’un qui rechercherait des informations sur les amphibiens ne « ratera » pas tous les documents qui sont indexés à son synonyme « batraciens » (puisque tous les bibliothécaires auront sélectionné « amphibiens » lors de l’indexation contrôlée). Les données locales constituent le troisième type de données d’un catalogue, qui nous donnent accès aux informations spécifiques d’exemplaires d’une bibliothèque en particulier (localisation dans le réseau de bibliothèques, cote de rangement dans la bibliothèque, code-barres identifiant l’exemplaire de manière univoque, etc.)
Au départ, les bibliothécaires fonctionnaient avec le format ISBD (International Standard Bibliographic Description) conçu pour les fiches papier. Cependant, lors de l’informatisation de ces catalogues, on s’aperçut que d’un système informatique à l’autre, les données étaient structurées différemment, ce qui ne permettait pas un échange des données entre des catalogues différents. Le développement des formats Marc (Machine Readable Cataloging) est à la source d’un projet de langage commun facilitant le partage de ces données. Le format international Unimarc est actuellement utilisé par la plupart des bibliothèques européennes, le Marc 21 étant quant à lui répandu dans les pays anglophones notamment.
Comment les métadonnées en bibliothèque ont-elles évolué ? À partir de quand ces nouveaux modèles ont-ils fait leur apparition ?
Les métadonnées bibliographiques ont connu deux grandes évolutions. La première date des années 1990, lorsque les bibliothécaires sont repartis des besoins des usagers. C’est à cette époque que le modèle FRBR (Functional Requirements for Bibliographic Records) a vu le jour. Concrétisé en 1995, ce modèle propose d’organiser le catalogue d’une bibliothèque selon quatre niveaux hiérarchiques répartis selon deux plans : deux sur le plan conceptuel qui reprend l’œuvre (texte créé par l’auteur, pour un livre, par exemple) et son expression (la traduction de cette œuvre dans une autre langue, par exemple), les deux autres sur le plan physique qui reprend la manifestation de l’œuvre (une édition du texte) et l’item (un exemplaire de cette édition).
La seconde grande évolution concerne le Web sémantique, développé dans les années 2000. Nous sommes partis du constat que les données des catalogues de bibliothèques sont des données profondes, cachées aux moteurs de recherche internet et dès lors peu accessibles pour les usagers. Il est donc devenu nécessaire de structurer l’information sur le modèle des formats du web afin de permettre à des moteurs tels que Google de faire ressortir ces données cachées. Le principe est simple : structurer les informations sous la forme de triplets sujet-prédicat-objet. Exemple : Raymond Radiguet (= sujet) est l’auteur de (= prédicat) Le diable au corps (= objet). Grâce au principe du triplet, les combinaisons sont infinies et les potentialités démultipliées. La souplesse du modèle est assurée par le format RDF (Resource Description Framework). RDA (Ressources: Description and Access) constitue quant à elle une nouvelle approche du catalogage anglo-américaine qui vise à implémenter FRBR et RDF. De ce côté-là, les choses sont également en train de bouger en Europe.
Rendez-vous la semaine prochaine pour la suite de l’interview !
Propos recueillis par Gaëlle Noëson
Retrouvez Lettres Numériques sur Twitter et Facebook.
— Gaëlle Noëson