Pandore toolbox

Documentation

Extraction de mots-clés

Cette tâche consiste à identifier les termes les plus représentatifs du contenu d'un document ou d'un corpus. Pour cela, les algorithmes produisent une représentation mathématique du document, puis recherchent à l'intérieur de celui-ci des segments (mots ou groupes de mots) qui ont une représentation similaire à celle du document. L’extraction des mots clés est utile essentiellement sur les grand corpus, car elle permet de visualiser rapidement leur contenu.

Extraction de mots-clés sur Pandore

1. Choisir la méthode de calcul de mots-clés souhaitées.

Les trois options peuvent être cochées simultanément afin de comparer les résultats. Pour la méthode MMR, le taux de diversité des mots-clés qu'on souhaite obtenir peut être précisé.

Explication des méthodes de calcul

MMR (Maximal Marginal Relevance)

Afin de diversifier les résultats, on peut appliquer MMR pour créer des mots-clés/phrases-clées, qui est aussi basé sur la similarité cosine. Si on choisit 'high diversity', les résultats seront peu similaires, en revanche 'low diversity' donnera les résultats qui se ressemblent.

High diversity :

[('algorithm generalize training', 0.7727),
('labels unseen instances', 0.1649),
('new examples optimal', 0.4185),
('determine class labels', 0.4774),
('supervised learning algorithm', 0.7502)]

Low diversity :

[('algorithm generalize training', 0.7727),
('supervised learning algorithm', 0.7502),
('learning machine learning', 0.7577),
('learning algorithm analyzes', 0.7587),
('learning algorithm generalize', 0.7514)]

Visitez le GitHub du projet pour en lire plus

MSS (Max Summary Similarity)

Pour diversifier les résultats, nous prenons les 2 x top_n mots/phrases les plus similaires au document. Ensuite, nous prenons toutes les top_n combinaisons des 2 x top_n mots et extrayons la combinaison qui est la moins similaire à l'autre par similarité cosinus.

[('set training examples', 0.7504),
('generalize training data', 0.7727),
('requires learning algorithm', 0.5050),
('supervised learning algorithm', 0.3779),
('learning machine learning', 0.2891)]

Visitez le GitHub du projet pour en lire plus

2. Déposer le fichier

3. Télécharger les résultats

Vous pouvez visualiser un aperçu des résultats et les télécharger dans un tableur (format CSV).