Documentation

Étiquetage morphosyntaxique

L'étiquetage morphosyntaxique (ou Part-of-Speech tagging) permet de déterminer les catégories grammaticales de chaque mot d'un texte. Cette tâche a lieu en deux étapes :

  1. tokénisation : le texte est d'abord segmenté en unités analysables, qui sont ici les mots ;
  2. étiquetage : à chaque mot est attribuée sa catégorie grammaticale.

Par exemple, le texte Le petit chat dort. sera analysé par l'outil de cette façon :

Le DET
petit ADJ
chat NC
dort V
. PONCT

A quoi ça sert ?

Cet étiquetage permet une analyse linguistique des textes. Il peut être utile par exemple pour comparer différentes éditions ou traductions d'un texte, ou pour filtrer une certaine catégorie de termes (verbes, nom propres, etc).

SEM sur Pandore

L'outil implémenté sur Pandore est l'analyseur SEM. GitHub du projet

Votre document doit être au format de texte brut. Le document à télécharger sera au format CoNLL 2003 (à ouvrir avec un éditeur de type Excel), avec une colonne pour le mot et une pour l'étiquette morphosyntaxique.

Voici un exemple du document de sortie :