Documentation
La modélisation de thématiques consiste à identifier dans un corpus les groupes de termes représentatifs des thèmes de celui-ci. Pour extraire ces informations, il existe plusieurs méthodes de calcul, détaillées ci-dessous. Leur efficacité respective dépendra du type de corpus et du type d'information recherchée. Globalement, NMF est plus performant sur les textes courts.
[réf].Format d'entrée : ensemble de fichiers au format texte (.txt)
Format de sortie : fichier CSV contenant les ensembles de mots-clés formant les thématiques détectées. Le nombre de thématiques dépend du nombre de document présents dans le corpus, mais est plafonné à 8.
En plus, cet outil permet l'utilisateur de choisir la lemmatisation ou non. En gros, la lemmatisation fait référence au procesus ramener un mot portant des marques de flexion à sa forme de référence (par exemple, 'faisait' donnera 'faire'.
Traitement en cours...