Topic Modelling

Documentation

La modélisation de thématiques consiste à identifier dans un corpus les groupes de termes représentatifs des thèmes de celui-ci. Pour extraire ces informations, il existe plusieurs méthodes de calcul, détaillées ci-dessous. Leur efficacité respective dépendra du type de corpus et du type d'information recherchée. Globalement, NMF est plus performant sur les textes courts.

[réf].

Format d'entrée : ensemble de fichiers au format texte (.txt)

Format de sortie : fichier CSV contenant les ensembles de mots-clés formant les thématiques détectées. Le nombre de thématiques dépend du nombre de document présents dans le corpus, mais est plafonné à 8.

En plus, cet outil permet l'utilisateur de choisir la lemmatisation ou non. En gros, la lemmatisation fait référence au procesus ramener un mot portant des marques de flexion à sa forme de référence (par exemple, 'faisait' donnera 'faire'.

Chargement des fichiers

Options
Méthodes de calcul des thématiques :
Le traitement peut être très long.

Déposer le(s) fichier(s) ou cliquer ici.

Résultats

Traitement en cours...