Textract, le nouvel extracteur de texte et de données d’Amazon

07/06/201916/04/2020 Audrey Voos 3853 Views Amazon Web Services, machine learning, OCR, reconnaissance optique de caractères, Textract

AWS (Amazon Web Services) a annoncé récemment l’arrivée du tout nouveau Textract. Plus qu’un simple logiciel d’OCR (reconnaissance optique de caractères), Textract permet d’extraire du texte et des données de n’importe quel type de document.

En effet, Textract peut extraire non seulement du texte, mais aussi des données dans des tableaux, ou dans des formulaires, y compris depuis des documents scannés. Il génère ensuite des données structurées sans aucune intervention humaine. Par exemple, Textract peut transformer un document PDF en feuille de calcul, en lisant, extrayant et structurant les différentes données chiffrées. Selon AWS : « Amazon Textract détecte automatiquement la mise en page d’un document et les éléments clés de la page, comprend les relations de données dans les formulaires ou les tableaux incorporés et extrait tout avec son contexte intact. Cela signifie que vous pouvez utiliser instantanément les données extraites dans une application ou les stocker dans une base de données sans beaucoup de code compliqué. »

Concrètement, Textract utilise le machine learning pour reconnaître les informations à extraire. AWS explique : « Les modèles d’apprentissage automatique préformés d’Amazon Textract éliminent le besoin d’écrire le code pour l’extraction de données, car ils ont déjà été formés sur des dizaines de millions de documents venant de pratiquement tous les secteurs, notamment des factures, des reçus, des contrats, des documents fiscaux, des commandes clients, des formulaires d’inscription, des demandes de prestations, des réclamations d’assurance, des documents de police et beaucoup d’autres. »

En général, dans les entreprises, ce genre d’opération nécessite une saisie manuelle. AWS promet donc une réduction des coûts de traitement des données puisque l’on épargne cette tâche lente et fastidieuse à un humain, mais aussi parce que le logiciel est capable de « traiter des millions de pages de documents par heures ».

Cependant, Textract reste soumis aux faiblesses de tous les logiciels d’OCR. Malgré les progrès dans ce domaine, l’identification des caractères pose parfois problème, et des erreurs classiques peuvent se produire (par exemple, prendre un 1 pour un l, etc.).

Aujourd’hui, le logiciel n’est disponible que dans certains États d’Amérique et en Irlande. La commercialisation devrait arriver dans le courant de cette année pour le reste des États-Unis et pour d’autres zones géographiques non précisées par la firme.

Retrouvez Lettres Numériques sur Twitter, Facebook et LinkedIn.

— Audrey Voos

You May Also Like

Numériser un livre en quelques minutes avec un scanner portable

Sign-IO, le machine learning au service des locuteurs de la langue des signes

Emma Identity, la première intelligence artificielle capable de déterminer la paternité d’une œuvre