Le langage XML, une avancée pour les textes en sciences humaines?

C’est en tout cas le pari de Dominique Roux, aux Presses universitaires de Caen.

Le langage HTML permet de mettre en page sur la toile. Certaines informations y sont encadrées par des balises, typiquement « < » et « > ». Le logiciel de navigation («butineur» en jargon) lit, ou plutôt décode, ces informations et ce sont elles qui lui permettent de mettre le texte en page à l’écran. Les balises HTML concernent donc uniquement la présentation finale du texte. Les balises en langage XML (en français, langage de balisage extensible), elles, prennent en compte le sens du texte et son organisation. Le World Wide Web Consortium est une organisation qui promeut la compatibilité de technologies telles que HTML et XML. L’idée qui sous-tend ces recherches est de promouvoir le partage et la réutilisation des données sur la toile. La standardisation des balises XML est nécessaire dans ce but : l’enjeu est donc de taille.

Il semblerait cependant que son usage reste encore relativement confidentiel dans les régions latines, par comparaison aux pays anglo-saxons. Dominique Roux, de l’Université de Caen, entend pourtant tirer parti de ces nouveaux outils dans le cadre de l’édition en sciences humaines. Il affirme que l’avènement du numérique a bousculé les repères et les métiers de l’édition. Or chacun de ces métiers doit pouvoir conserver ses techniques, sous peine d’une baisse de qualité, argue-t-il. Dans un environnement technologique mouvant,  évoluant vers le numérique, il importe de transposer les grands axes du métier d’éditeur. Ceux-ci comprennent, toujours selon Dominique Roux,  d’une part, la transposition d’une structure logique en une forme compréhensible, qui puisse être référencée et adaptée à un support donné et, d’autre part, la diffusion des textes. C’est dans cette optique que Dominique Roux a voulu mettre en place une chaîne de publication XML dans la structure d’édition que sont les Presses universitaires de Caen. Pourquoi XML ? D’abord, explique-t-il, parce que «les normes du XML permettent de chercher et de redistribuer les bons éléments de textes aux bons endroits de mises en page et ce pour des supports différents». Les balises XML sont lisibles par l’homme et permettent de conserver un flux de données, un urtext, qui pourra être mis ensuite sous différentes formes. Le contenu est dès lors réutilisable, ce qui au passage facilite les échanges de savoir. Une condition à cela : adopter des standards communs. Dominique Roux, pour les Presses universitaires de Caen, recourt à ONIX (description des produits éditoriaux, y compris l’historique) et à la Text Encoding Initiative (TEI, pour l’encodage des contenus). Pourquoi ce choix de la TEI ?  « Ses éléments descriptifs rappellent la structure d’un livre », détaille Dominique Roux. « Puis, nous faisons le pari que la TEI deviendra incontournable en sciences humaines et sociales, puisque son langage se prête bien à ces matières ». En effet, ne perdons pas de vue qu’il s’agit ici de presses universitaires et que les publications liées à la recherche ont leurs exigences propres, entre autres de stabilité, de citabilité, de reconnaissance par les pairs dans le domaine.

Un pari d’ouverture de la connaissance, pour aujourd’hui et pour demain : visiblement, c’est ainsi que Dominique Roux souhaite être un éditeur au service de la communauté des chercheurs, dans une université publique. Affaire à suivre, là comme ailleurs!

Ailleurs sur la toile :

Une réalisation des Presses universitaires de Caen.

Crédit photo:

Text Encoding Initiative

À lire dans notre numéro spécial Archivage :

Retrouvez Lettres Numériques sur Twitter et Facebook.

— Sibylle Greindl

Share Button