Cette tâche consiste à identifier les termes les plus représentatifs du contenu d'un document ou d'un corpus. Pour cela, les algorithmes produisent une représentation mathématique du document, puis recherchent à l'intérieur de celui-ci des segments (mots ou groupes de mots) qui ont une représentation similaire à celle du document. L’extraction des mots clés est utile essentiellement sur les grand corpus, car elle permet de visualiser rapidement leur contenu.
1. Choisir la méthode de calcul de mots-clés souhaitées.
Les trois options peuvent être cochées simultanément afin de comparer les résultats. Pour la méthode MMR, le taux de diversité des mots-clés qu'on souhaite obtenir peut être précisé.
Afin de diversifier les résultats, on peut appliquer MMR pour créer des mots-clés/phrases-clées, qui est aussi basé sur la similarité cosine. Si on choisit 'high diversity', les résultats seront peu similaires, en revanche 'low diversity' donnera les résultats qui se ressemblent.
Pour diversifier les résultats, nous prenons les 2 x top_n mots/phrases les plus similaires au document. Ensuite, nous prenons toutes les top_n combinaisons des 2 x top_n mots et extrayons la combinaison qui est la moins similaire à l'autre par similarité cosinus.
2. Déposer le fichier
3. Télécharger les résultats
Vous pouvez visualiser un aperçu des résultats et les télécharger dans un tableur (format CSV).