Un outil de machine learning passe des ouvrages au Tamis

Le projet Tamis, ou Traitement Algorithmique des Métadonnées en Imagerie et Sémantique, est un programme ayant pour vocation d’enrichir les métadonnées et la description d’un ouvrage grâce à son contenu. Pour ce faire, il fait appel à des technologies poussées de machine learning et d’intelligence artificielle. Une telle invention pourrait être très utile aux maisons d’édition qui souhaitent mettre en avant leurs collections de façon originale.

Gilles Herman, directeur des éditions Septentrion au Québec, est l’instigateur de ce projet. Cette maison avait déjà été parmi les premières à utiliser Internet, en 1995, pour mettre en valeur sa collection sur un site web. Accompagné de Christian Roy, fondateur de Brix Labs, pour la technique et de Clément Laberge pour la consultance, Gilles Herman investigue le domaine de l’IA dans le milieu traditionnel de l’édition. Ils sont soutenus financièrement par le Conseil des Arts du Canada.

TAMIS_logo

Origines du projet

La genèse du projet part du constat que l’utilisation et la gestion des métadonnées dans le monde de l’édition souffrent d’un manque d’optimisation et d’efficacité. Par exemple, ONIX (Online Information Exchange), aux spécifications complexes, ne comporte pas de champ permettant de décrire la couverture d’un ouvrage. Celle-ci joue pourtant un rôle majeur chez le lecteur, il aura en effet tendance à se souvenir de l’image plutôt que du titre.

De plus, un lecteur découvrira un ouvrage par le bouche à oreilles, les conseils d’un libraire ou d’un bibliothécaire. Le problème réside dans la façon dont l’œuvre est présentée, démarche qui est loin d’être uniforme et qui peut changer selon le média de transmission. Tamis peut s’avérer utile dans ce contexte, car avec suffisamment de données et grâce à la puissance extraordinaire du machine learning, il peut générer des descriptions depuis le contenu de l’ouvrage. Par exemple, il est en mesure de déterminer la localisation précise de l’histoire : 78 % à Montréal, 12 % à Paris.

Ce projet intervient dans un domaine pour ainsi dire inexploré dans l’édition. En effet, selon Gilles Herman : « Les éditeurs ne sont pas non plus formés à cela ni des spécialistes de la bibliothéconomie. » Afin de construire cet outil innovant, ils se sont tournés vers des logiciels déjà existants et open source.

Fonctionnement

Toute méthode de machine learning a un appétit vorace de données. Il faut donc, avant de se lancer dans la création d’algorithmes, disposer d’un suffisamment gros jeu de données pour être en mesure d’obtenir un modèle robuste. Septentrion, ne disposant que de 850 titres, a fait appel à des partenaires pour élargir le jeu de données à plus de 3 500 titres. Selon Gilles Herman : « Avec 800 000 titres, on parviendrait à une tout autre échelle. » Les différents partenaires pourront évidemment profiter des données produites.

TAMIS_Text_Analysis

Une fois ces œuvres rassemblées, il est possible de les exploiter. Selon Gilles Herman, le fonctionnement de ce projet repose sur « […] l’utilisation d’algorithmes, de librairies à code source libre, ou d’API disponibles à peu de frais […] pour tenter de comprendre une œuvre […] ». Tamis, toujours en construction, utilise des API telles que :

  • Google Cloud, Rosette, TextRazor et IBM Watson pour l’extraction de mots-clefs ;
  • Amazon Comprehend et TextRazor pour assigner des catégories BISAC ou Thema aux livres.

Ces logiciels sont disponibles en open source ou de façon plus ou moins libre sur Internet. Les utiliser leur permet d’avancer plus rapidement sans devoir réinventer la roue. Des universités commencent, en plus, à montrer leur intérêt pour ce projet. Pour ce qui est des fonctionnalités possibles, elles sont multiples. Selon Gilles Herman : « Mots fréquents, géolocalisation, analyses sémantiques, tout va y passer. »

Une démo de la console de l’éditeur est déjà disponible sur Youtube.

Apports du projet dans le monde de l’édition

Tamis dispose de plusieurs innovations intéressantes :

  • contrairement aux algorithmes de recommandation qui utilisent les données de consommation, Tamis part du contenu de l’ouvrage et proposera donc des métadonnées uniques, propres à chaque livre ;
  • la production de métadonnées se fera en grands volumes et de façon automatisée ou semi-automatisée ;
  • l’équipe du projet est transparente et donne à voir leur évolution et le code source.

Selon Christian Roy, responsable des recherches : « Appliquer des sciences dont on entend parler au secteur culture, c’est aussi résoudre des problèmes que l’édition rencontre. » Tamis, toujours en construction, est prometteur car il utilise des outils poussés de machine learning pour extraire des métadonnées uniques depuis les ouvrages. Celles-ci pourront ensuite être utilisées dans des applications pratiques qu’il faut encore inventer. En effet, selon Gilles Herman : « Toute la problématique est encore de parvenir à utiliser ces données par la suite, pour améliorer la découvrabilité du livre. »

Ailleurs sur Lettres Numériques :

Retrouvez Lettres Numériques sur TwitterFacebook et LinkedIn.

— Jean Cheramy

Share Button