Entrepôts, Représentation et Ingénierie des Connaissances
Publications of the ERIC lab

Search

by Year
by Author
by Topic
by Type
--------------------
- Étiquetage thématique automatisé de corpus par représentation sémantique hal link

Author(s): Martinet L., Al-Natsheh H., Rico F., Muhlenbach Fabrice, Zighed D. A.

Conference: EGC 2018 - 18ème Conférence Internationale sur l'Extraction et la Gestion de Connaissances (Paris-Nord, FR, 2018-01-22)


Ref HAL: hal-01659639_v1
Exporter : BibTex | endNote
Abstract:

Dans les corpus de textes scientifiques, certains articles issus de communautés de chercheurs différentes peuvent ne pas être décrits par les mêmes mots-clés alors qu'ils partagent la même thématique. Ce phénomène cause des problèmes dans la recherche d'information, ces articles étant mal indexés, et limite les échanges potentiellement fructueux entre disciplines scientifiques. Notre modèle permet d'attribuer automatiquement une étiquette thématique aux articles au moyen d'un apprentissage des représentations sémantiques d'articles du corpus déjà étiquetés. Passant bien à l'échelle, cette méthode a pu être testée sur une bibliothèque numérique d'articles scientifiques comportant des millions de documents. Nous utilisons un réseau sémantique de synonymes pour extraire davantage d'articles sémantiquement similaires et nous les fusionnons avec ceux obtenus par un modèle de classement thématique. Cette méthode combinée présente de meilleurs taux de rappel que les versions utilisant soit le réseau sémantique seul, soit la seule représentation sémantique des textes.