Pandore : une boîte à outil pour les humanités numériques

Projet

Pandore offre un ensemble de modules permettant d'effectuer automatiquement les tâches les plus courantes liées au traitement de corpus pour la recherche en humanités numériques. Des chaînes de traitement permettant d'automatiser un ensemble de tâches sont également proposées.

OCR/HTR

OCR/HTR

Conversion d'images en texte

Conversion de formats

Conversion de formats

Formatage XML-TEI, conversion de divers formats de fichiers.

Fouille et annotation de texte

Fouille et annotation de texte

Reconnaissance d'entités nommées, étiquetage morphosyntaxique, analyse de sentiments

Visualisation

Visualisation

Tanagra (entités de lieux sur carte)
Minerva (réseaux de cooccurrences)
Ariane (polarités textuelles)

Collecte de corpus

Collecte de corpus

Scraping personnalisé des corpus Wikisource

Correction textuelle

Correction textuelle

Correction d'erreurs et normalisation pour corpus à la graphie non standard

Chaînes de traitement

Chaînes de traitement

Traitement automatique depuis l'OCR jusqu'à la reconnaissance d'entités et leur visualisation.