Numériser (OCR/HTR)

Tesseract OCR

L'outil Tesseract permet de numériser des imprimés. Les modèles préentraînés (liste ici ) disponibles avec l'outil couvrent un large éventail de polices et sont disponibles pour de très nombreuses langues. Pour les textes bilingues, il est possible d'utiliser conjointement deux modèles. Les modèles pour le chinois proviennent d'un projet externe.

Voir la documentation complète

Informations sur l'outil

Tesseract version 4.0.0

Formats d'entrée : PNG, JPG, TIFF, PDF

Format généré : fichier TXT

Limite de taille : 50 Mo

Ajouter

Déposer le(s) fichier(s) ou cliquer ici.

Traitement en cours...

Vos fichiers apparaîtront une fois le traitement terminé.

eScriptorium (HTR)

Une instance eScriptorium hébergée par le SCAI à l'initiative d'ObTIC est disponible à cette adresse. Merci de remplir le formulaire de contact pour demander la création d'un compte.

Transkribus (HTR)

Transkribus est une excellente alternative pour les tâches d'HTR. Payant au-delà d'un certain nombre de pages à numériser, il permet néanmoins d'entraîner rapidement des modèles performants. Une intéressante sélection de modèles pré-entraînés est également disponible.

Tâches suivantes
×

Tâches suivantes

Convertir en XML-TEI
Extraire les entités nommées
Étiqueter en parties du discours