Sommaire

Textract

TextractTextract était encore en phase bêta lors de l’écriture de ce livre. En tant que développeur AWS, j’y ai eu accès pour l’intégrer dans le livre. Voici quelques éléments en avant-première pour en comprendre l’utilisation et le potentiel.

Le nom du service est la contraction de Text et Extract (extraire du texte), ce qui permet d’envisager son utilité. Textract est une évolution des systèmes de reconnaissance optique de caractères, évolution, car il ne se contente pas de reconnaître des caractères dans un document, il y trouve des relations et permet une extraction plus intelligente des éléments qui s’y trouvent.

L’exemple fourni par Amazon pour présenter le service permet de mieux comprendre ce que Textract fait. Il s’agit d’un formulaire contenant du texte libre, des zones de saisies et un tableau.

images/ANEXP007.png

Figure 7 - Formulaire à analyser

Textract va alors effectuer deux opérations sur le document :

1. Il détecte les mots et les lignes.

2. Il analyse les mots et les lignes détectés à la recherche d’éléments contextuels comme des tableaux ou des éléments de formulaires.

L’unité de travail de Textract est appelée un bloc. Pendant la phase de détection de textes, les blocs sont les mots (WORD), les lignes (LINE) et les pages (PAGE). Pendant la phase d’analyse, Textract va extraire ...