La reconnaissance des entités nommées (REN) permet d'extraire des informations cruciales d'un texte : les noms de personne, les lieux, les dates, les événements, etc. C'est l'une des tâches de traitement automatique les plus largement utilisées, puisqu'elle permet d'identifier les éléments clés d'un texte. Il existe de nombreux outils qui permettent de réaliser cette tâche ; dans Pandore, nous mettons à disposition les plus largement utilisées et qui obtiennent les meilleurs résultats.
SpaCy est une bibliothèque Python qui facilite le traitement automatique du langage. Utilisée par plusieurs entreprises, cette bibliothèque permet d'effectuer des tâches essentielles du traitement automatique de texte comme la tokénisation, la lemmatisation, l'étiquetage morphosyntaxique, l’analyse syntaxique, et la reconnaissance d'entités.
Flair est une bibliothèque open-source pour le traitement automatique du langage, développée à l'Université de Berlin. De façon similaire à Spacy, elle permet d'effectuer les tâches d'analyse linguistique des textes. Bien qu'un peu moins performante que Spacy sur les langues majoritaires comme l'anglais, son avantage est d'offrir des outils d'analyse pour des langues moins bien outillées.
BERT (pour Bidirectional Encoder Representations from Transformers), utilise la technologie qui obtient en général de meilleures performances : son principe est se baser sur une représentation interne des mots qui dépend de leur contexte dans la phrase où ils figurent ainsi que dans la phrase suivante, ce qui permet de capturer des propriétés linguistiques et sémantiques d'un texte. CamemBERT est une des déclinaisons de BERT spécifiquement entraînée pour le français.
Actuellement, Pandore offre un traitement en trois langues; anglais, français et espagnol. Deux formats de texte sont pris en charge, le format texte et le format XML-TEI.
1. Sélectionnez le format de votre texte.
Si votre texte est en texte brut, vous pouvez tout de suite choisir quel moteur de REN utiliser entre SpaCy, Flair et BERT, présentés précédemment.
Si votre texte est en XML-TEI, il y a quatre options à définir.
Premièrement, le nom de domaine précise à quel espace de noms appartiennent les éléments structurant le document. Les documents TEI doivent avoir dans leur entête l'indication du nom de domaine TEI, qui est celle présente par défaut dans le formulaire. Les documents XML qui ne suivent pas cette norme peuvent avoir d'autres noms de domaine. Vous n'aurez donc besoin de modifier ce champ que si votre document n'est pas au format TEI.
La balise racine fait référence à la balise qui englobe le contenu du document, hors métadonnées. Dans le standard TEI, cette balise est <text>. Là encore, vous n'aurez besoin de modifier ce champ que si votre document ne suit pas le standard TEI.
Enfin, l'encodage du document peut être précisé. L'encodage recommandé est UTF-8, car il prend en charge un très grand nombre de caractères spéciaux et de polices ; c'est aussi actuellement le plus utilisé.
2. Choisissez votre moteur de REN.
Spacy propose trois modèles : sm (small), md (medium) et lg (large). Le modèle large est en général le plus performant mais le temps de traitement est plus long.
3. Envoyez vos textes via la zone de glisser-déposer.