NLTK : des statistiques à la création littéraire

La création artistique a souvent été couplée aux innovations technologiques. Parfois en la précédant de plusieurs siècles, comme les célèbres aéronefs de Léonard de Vinci, objets volants précurseurs de l’hélicoptère. Dans un tout autre registre, le développement de langages de programmation open source révèle des potentiels inédits pour la création littéraire. L’intrication entre art et recherche se profile ici grâce à NLTK, une plateforme pour le traitement du langage naturel.

NLTK_tokenize
La Tokenisation, c’est le processus d’inscription d’un actif et de ses droits sur un token afin d’en permettre la gestion et l’échange en pair-à-pair, de façon instantanée et sécurisée sur une infrastructure blockchain.

Derrière l’acronyme NLTK se cache le Natural Language Toolkit, une plateforme pour traiter des données de langage humain avec Python. Il fournit des interfaces faciles à utiliser pour des ressources lexicales telles que WordNet, ainsi qu’une suite de bibliothèques de traitement de texte pour la classification, la tokenisation, l’analyse et le raisonnement sémantique. En d’autres termes, NLTK permet de « décomposer » des textes afin de pouvoir être traités par le langage de programmation Python. C’est donc une manière de traduire le langage humain en données mathématiques. Ainsi, NLTK est particulièrement utile pour l’analyse statistique de textes, et est capable de repérer l’occurrence d’un mot dans des corpus riches de milliers de caractères. La plateforme permet également de créer des arborescences afin de mieux visualiser le champ lexical d’un texte ou d’un ensemble de textes ainsi que de comparer son utilisation. Il s’avère donc une ressource précieuse pour les linguistes et les chercheurs en réduisant un travail habituellement fastidieux en une opération de quelques secondes.

NLTK_death of the authors

La machine compose

Mais NLTK ne sert pas seulement d’outil pour la recherche ou l’industrie. Il offre également des potentialités inédites pour l’expérimentation artistique. Algolit, le groupe de travail sur la littérature et le code libre, utilise régulièrement le programme pour créer des publications expérimentales. À titre d’exemple, The Death of the Authors est un roman génératif créé à l’aide de Python et NLTK. Le roman se déploie sous forme de remix : à chaque fois qu’un script est lancé, les phrases d’auteurs notoires comme Virginia Woolf, Henri Bergson ou James Joyce sont réagencées pour former un nouveau texte. Les phrases sont sélectionnées par thèmes, le programme permettant d’attraper les expressions en fonction de champs lexicaux déterminés à l’avance. Le résultat se décline sur quatre saisons littéraires : les mots, décomposés à l’image de leurs auteurs disparus, éclosent dans de nouveaux paysages sémantiques. Une lecture énigmatique et surtout poétique, où le sens est recréé à chaque nouvelle itération. Comme l’annonçait Roland Barthes dans son article séminal de 1967, « la naissance du lecteur doit se payer de la mort de l’auteur ». Le texte ne dépend plus de l’intention de son auteur, il est constamment réécrit par celui qui le lit. Dans la version d’Algolit, cette théorie s’incarne pour ainsi dire littéralement : à chaque fois qu’un lecteur active le script, la machine compose un nouveau roman.

Des œuvres et des logiciels libres

Le roman d’Algolit était présenté pour la première fois en 2012 dans le cadre de la Journée du Domaine Public. Chaque année au premier janvier, des milliers d’œuvres d’auteurs décédés entrent dans le domaine public. En effet, à l’expiration de leur période de protection du droit d’auteur, celles-ci deviennent un trésor public que chacun peut apprécier et utiliser librement. Grâce à des bibliothèques numériques comme le Projet Gutenberg, ces œuvres sont maintenant aisément accessibles en format digital – et prêtes à donner forme à des créations dérivées. Ces œuvres rendues publiques ainsi que l’accessibilité garantie par la nature open source des logiciels comme Python et NLTK sont porteuses de nouveaux possibles artistiques. NLTK, tout comme les travaux d’Algolit, sont des projets gratuits, open source et communautaires. Leur élaboration dépend des contributions de leurs utilisateurs, leur permettant d’être sans cesse reformulés et augmentés. NLTK offre ainsi une introduction pratique à la programmation pour le traitement du langage, ainsi qu’un Wiki et une documentation API complète. Algolit offre également des ressources en ligne pour les aspirants créateurs, dont une boîte à outils pour la création algolittéraire. Outre leur transparence et leur accessibilité, les deux projets ont en commun de proposer des licences libres, invitant toute personne curieuse à participer à l’élaboration de nouveaux langages, qu’il s’agisse de programmation ou de nouvelles voix littéraires.

Retrouvez Lettres Numériques sur TwitterFacebook et LinkedIn.

— Emma Kraak

Share Button