Distant reading et topic modeling, de nouveaux outils d’analyse littéraire
L’accessibilité croissante des outils informatiques incite les chercheurs à l’innovation dans le domaine de l’analyse littéraire. Le distant reading, une approche proposée par le professeur italien Franco Moretti, vise à analyser la littérature dans une vue d’ensemble, à l’opposé de l’approche classique du close reading communément pratiquée. Dans ce contexte, le topic modeling, un ensemble de méthodes statistiques capables de déduire les sujets d’un corpus littéraire, est un outil intéressant à envisager.
Le distant reading est un concept proposé par Franco Moretti pour décrire une approche en analyse littéraire. Littéralement « lecture à distance », le distant reading s’oppose à la « lecture de près », le close reading, la méthode classique utilisée en analyse littéraire. En close reading, l’attention est portée sur l’œuvre qui est lue et analysée en détails. Moretti argumente que le close reading est incapable de saisir toute l’envergure de la littérature, car même si une telle approche est possible pour deux cents livres d’un siècle donné, que savons-nous réellement sur la littérature du siècle en question si celle-ci se compte en centaines de milliers d’œuvres ?
Le close reading ne produirait donc pas de résultats représentatifs étant donné la production littéraire beaucoup trop large et qui ne cesse d’augmenter. En réponse à cette problématique, Moretti préconise le distant reading, capable d’envisager la production littéraire dans sa totalité. Les méthodes utilisées relèvent souvent d’une analyse quantitative et du traitement des données. Ainsi, dans Maps, Graphs and Trees, Moretti présente plusieurs visualisations illustrant des tendances littéraires à large échelle : l’évolution d’un genre à travers le temps, la moyenne des romans publiés par année durant un siècle entier ou encore la « durée de vie » de chaque type de roman à travers plusieurs siècles.
Le topic modeling est une méthode en apparence excellente pour le distant reading, car elle permet en théorie de déterminer les thématiques d’une série d’œuvres littéraires, et cela sans devoir les lire. Le topic modeling fonctionne sur base d’un algorithme (le plus courant est le LDA du scientifique américain David Blei) et demande à l’utilisateur de choisir la valeur de la variable k (le nombre de sujets/thématiques/topics que les textes contiennent) et les textes à analyser. Ensuite, le logiciel donne les résultats sous le format suivant : par exemple, le sujet 1 d’un roman X, contient les mots suivants « sucre, balais, café, croissant, charmant, gourmand, moule, etc. ». Pour chaque roman du corpus, le logiciel fournit le pourcentage de mots qui appartiennent à chaque sujet envisagé. En fonction de cela, il déduit par exemple que le sujet 1 compose 50 % du roman X.
Cependant, ceci est la seule partie objective du processus. Le reste des opérations est hautement subjectif et dépend de l’utilisateur. Un pré-traitement des textes est toujours effectué pour avoir des sujets plus cohérents, mais les pratiques varient fortement : parfois on supprime seulement les mots les plus fréquents, parfois tout, excepté les noms communs. Toutefois, l’opération la plus subjective reste l’interprétation des résultats : il est commun d’assigner un nom à chaque sujet, mais dans de nombreux cas les mots ne forment pas un tout cohérent, et déduire un thème intelligible est souvent compliqué voire parfois impossible. En pratique, cela donne souvent lieu à des dénominations très abstraites. Ainsi, survient le problème principal du topic modeling puisque être informé que le roman X est composé à 50 % du sujet identifié comme « sentiments génériques » et à 14 % du sujet « conditions de vie urbaine » est d’une utilité douteuse.
Le distant reading s’installe de plus en plus comme une stratégie d’analyse littéraire légitime et, malgré les différents désaccords à son sujet, produit de la valeur ajoutée par le simple fait des débats intenses qu’il provoque dans la discipline. Le topic modeling, au contraire, convient encore peu à un contexte littéraire : il souffre d’une absence de bonnes pratiques et d’une trop grande subjectivité et, même si l’outil livre parfois des résultats intéressants, son apport principal est une perspective radicalement nouvelle (car machinale) sur un ensemble de textes, perspective qui donne parfois lieu à des pistes de recherches originales. Cependant, en ce moment, le topic modeling est encore un outil très récent et le constat pourrait être différent une fois le domaine arrivé à maturité.
Retrouvez Lettres Numériques sur Twitter et Facebook.
Mikhail Tiniakov
— Rédaction