Pandore : une boîte à outil pour les humanités numériques
Projet
Pandore offre un ensemble de modules permettant d'effectuer automatiquement les tâches les plus courantes liées au traitement de corpus pour la recherche en humanités numériques. Des chaînes de traitement permettant d'automatiser un ensemble de tâches sont également proposées.
OCR/HTR
Conversion d'images en texte
Conversion de formats
Formatage XML-TEI, conversion de divers formats de fichiers.
Fouille et annotation de texte
Reconnaissance d'entités nommées, étiquetage morphosyntaxique, analyse de sentiments
Visualisation
Tanagra (entités de lieux sur carte)
Minerva (réseaux de cooccurrences)
Ariane (polarités textuelles)
Collecte de corpus
Scraping personnalisé des corpus Wikisource
Correction textuelle
Correction d'erreurs et normalisation pour corpus à la graphie non standard
Chaînes de traitement
Traitement automatique depuis l'OCR jusqu'à la reconnaissance d'entités et leur visualisation.