Intelligence artificielle et linguistique : un pas vers la traduction des langues indéchiffrées

Fin octobre aux États-Unis, le laboratoire de recherche sur l’informatique et l’intelligence artificielle (CSAIL) du MIT a présenté son nouveau projet : une IA capable de retracer les liens de parenté des langues anciennes non encore déchiffrées, pour pouvoir à terme les traduire. 

La linguistique historique

Une langue meurt généralement après un long processus d’inclusion dans une autre langue davantage parlée, ses locuteurs l’abandonnant ainsi en ne la parlant et ne la transmettant plus. Aujourd’hui, selon les chercheurs du MIT, il existe encore au moins une douzaine de langues indéchiffrées, notamment du fait du manque d’informations historiques, ou d’écrits à étudier.

De manière générale, déchiffrer une langue inconnue est un projet pharaonique et demande des décennies de recherche. Par exemple, le linéaire B, écriture mycénienne du deuxième millénaire av. J.-C., a été découvert en Crète en 1900 et compris en 1952, tandis que le linéaire A, découvert au même moment, n’a toujours pas été déchiffré à l’heure actuelle.

L’enjeu est pourtant de taille en archéologie, car comprendre une langue perdue, c’est aussi comprendre les civilisations qui l’utilisaient et leurs coutumes.

L’équipe de chercheurs du MIT, avec à sa tête Regina Barzilay, part du principe que les langues perdues indéchiffrées ont deux points communs : les textes ne sont pas ou peu segmentés en mots, c’est-à-dire qu’il n’y a pas d’espaces entre les mots, et la langue la plus proche de celle indéchiffrée est inconnue. Il était donc question d’inventer une IA qui pourrait pallier à ces deux problèmes.

Qui plus est, il est acquis que les langues évoluent petit à petit et avec prévisibilité : « Un mot avec un « p » dans la langue parente peut se transformer en un « b » dans la langue descendante, mais il est moins probable qu’il devienne un « k », en raison de l’écart important de prononciation », écrit ainsi le rapport de recherche du MIT.

L’IA à la rescousse des linguistes

Ces trames logiques d’évolution de langage ont été retranscrites sous forme de calculs, que l’IA va ainsi appliquer à la langue étudiée. Plus précisément, il s’agit d’un travail de classement et de liaisons par analogie entre les mots de la langue étudiée et les mots d’autres langues. L’IA procède sans connaissances préalables sur la langue objet de l’étude ou sur ses liens de parenté, et segmente les mots si nécessaire. À terme, l’IA rassemble les informations ainsi déduites sous forme de schémas.

D’abord, l’IA a été testée sur deux langues dont les liens de parenté sont déjà connus, le gotique et l’ougaritique. L’identification des racines de ces langues a été claire pour l’algorithme, ce qui a permis de poursuivre les recherches.

Alors, l’IA a donc été testée sur une langue à la parenté inconnue, l’ibère, langue d’Europe de l’Ouest parlée entre le VIIe et le Ier siècle av. J.-C. Il s’agit là d’une langue non segmentée et dont on ne connaît pas les racines. La question de savoir si cette langue est en lien avec le basque est débattue depuis des années par les chercheurs. Pour sa part, l’IA a affirmé directement l’absence de lien de parenté entre ces deux langues.

Pour l’instant, il n’est pas encore question de déchiffrer les langues mortes incomprises, mais c’est bien le but de ce projet. En effet, grâce aux informations accumulées durant cette première phase de recherche historique, l’IA devrait être capable, à la façon d’un logiciel de traduction instantanée, de traduire ces langues qui échappent aux chercheurs depuis des décennies.

Ailleurs sur Lettres Numériques :

 Retrouvez Lettres Numériques sur TwitterFacebook et LinkedIn.

— Nausicaa Plas

Share Button