L'étiquetage morphosyntaxique (ou Part-of-Speech tagging) permet de déterminer les catégories grammaticales de chaque mot d'un texte. Cette tâche a lieu en deux étapes :
Par exemple, le texte Le petit chat dort. sera analysé par l'outil de cette façon :
Le | DET |
petit | ADJ |
chat | NC |
dort | V |
. | PONCT |
A quoi ça sert ?
Cet étiquetage permet une analyse linguistique des textes. Il peut être utile par exemple pour comparer différentes éditions ou traductions d'un texte, ou pour filtrer une certaine catégorie de termes (verbes, nom propres, etc).
L'outil implémenté sur Pandore est l'analyseur SEM. GitHub du projet
Votre document doit être au format de texte brut. Le document à télécharger sera au format CoNLL 2003 (à ouvrir avec un éditeur de type Excel), avec une colonne pour le mot et une pour l'étiquette morphosyntaxique.
Voici un exemple du document de sortie :