Documentation

OCR / HTR

L'OCR, pour Optical Character Recognition (reconnaissance optique de caractères) permet d'extraire le texte d'une image de manière à obtenir ce texte en format numérique.

L'HTR, pour Handwritten Text Recognition (reconnaissance de texte manuscrit), permet d'extraire de la même façon de l'écriture manuelle.

Comment ça marche ?

La reconnaissance de caractères s'effectue en 2 étapes. D'abord, le système doit identifier où se trouve le texte dans l'image (les zones de texte), et identifier les différentes lignes qui le composent. C'est la phase de segmentation. Une fois les zones et les lignes de texte déterminées, le système doit reconnaître chacun des caractères qui composent ces lignes. C'est la phase de reconnaissance de caractères. Les systèmes d'OCR réalisent généralement ces deux opérations en même temps, tandis que les outils d'HTR permettent d'intervenir manuellement sur la segmentation, souvent plus complexe lorsqu'il s'agit d'écriture manuscrite.

Pour que la reconnaissance du texte soit optimale, les images données à l'outil doivent présenter un texte le plus lisible possible :

Le taux de reconnaissance des textes imprimés par les logiciels de l'état de l'art est généralement très haut pour les langues écrite en caractères latins (>90%).

L'OCR sur Pandore

Nous proposons une numérisation de vos documents avec l'outil Tesseract. Vous pouvez extraire du texte depuis plusieurs formats d'images (png, jpg, tiff, pdf).

1. Sélectionnez la langue de votre texte.

2. Déposez vos fichiers dans la zone de téléchargement. Vous pouvez poster des fichiers aux formats indiqués sur l'outil ; il est possible de mélanger les différents formats. Si vous postez un fichier PDF de plusieurs pages, chacune des pages sera traitée, et un fichier texte contenant l'ensemble du PDF sera généré.

3. Cliquez sur "Numériser". Selon le nombre d'images fournies, le traitement peut être long. Dès que l'outil aura traité vos documents, le téléchargement commencera. Vous recevrez un dossier compressé (ZIP) contenant vos textes numérisés (ou directement le fichier texte si vous n'avez posté qu'une seule image).

Références