Entrepôts, Représentation et Ingénierie des Connaissances
Publications of the ERIC lab

Search

by Year
by Author
by Topic
by Type
--------------------
- Approches en fouille de texte pour une exploration par similarité sémantique et un enrichissement en métadonnées des bibliothèques numériques hal link

Author(s): Al-Natsheh H.

(Theses) , 2019


Ref HAL: tel-02065269_v1
Exporter : BibTex | endNote
Abstract:

Pour les scientifiques et chercheurs, s’assurer que la connaissance est accessible pour pouvoir être réutilisée et développée est un point crucial. De plus, la façon dont nous stockons et gérons les articles scientifiques et leurs métadonnées dans les bibliothèques numériquesdétermine la quantité d’articles pertinents que nous pouvons découvrir et auxquels nous pouvons accéder en fonction de la signification réelle d’une requête de recherche. Cependant, sommes-nous en mesure d’explorer tous les documents scientifiques sémantiquement pertinents avec les systèmes existants de recherche d’information au moyen de mots-clés ? Il s’agit là de la question essentielle abordée dans cette thèse. L’objectif principal de nos travaux est d’élargir ou développer le spectre des connaissances des chercheurs travaillant dans un domaine interdisciplinaire lorsqu’ils utilisent les systèmes de recherche d’information des bibliothèques numériques multidisciplinaires. Le problème se pose cependant lorsque de tels chercheurs utilisent des mots-clés de recherche dépendant de la communauté dont ils sont issus alors que d’autres termes scientifiques sont attribués à des concepts pertinents lorsqu’ils sont utilisés dans des communautés de recherche différentes. Afin de proposer une solution à cette tâche d’exploration sémantique dans des bibliothèques numériques multidisciplinaires, nous avons appliqué plusieurs approches de fouille de texte. Tout d’abord, nous avons étudié la représentation sémantique des mots, des phrases, des paragraphes et des documents pour une meilleure estimation de la similarité sémantique. Ensuite, nous avons utilisé les informations sémantiques des mots dans des bases de données lexicales et des graphes de connaissance afin d’améliorer notre approche sémantique. En outre, la thèse présente quelques implémentations de cas d’utilisation du modèle que nous avons proposé. Enfin, plusieurs évaluations expérimentales ont été menées afin de valider l’efficacité de notre approche. Les résultats de l’approche hybride, basée à la fois sur une représentation sémantique de petits textes et sur l’information sémantique des mots extraits de bases de données lexicales, ont été trèsencourageants. Nous pensons que nos nouvelles approches basées sur les techniques de fouille de texte permettent d’obtenir en pratique les résultats escomptés en ce qui concerne la limitation de l’exploration sémantique dans les systèmes classiques de recherche d’information des bibliothèques numériques. L’avantage de notre approche est qu’elle s’applique aux grandes bibliothèques numériques multidisciplinaires. En ce sens, nous utilisons les informations trouvées dans les méta-données de ces bibliothèques afin de les enrichir de balises sémantiques supplémentaires. Par conséquent, les métadonnées améliorées et enrichies permettent aux chercheurs de récupérer des documents plus pertinents d’un point de vue sémantique qui seraient autrement restés inexplorés sans cet enrichissement. Nous pensons que notre étude et les approches que nous proposons fourniront des solutions pratiques à l’accès aux connaissances et contribueront aux communautés derecherche et aux domaines de la fouille de texte et de la gestion des données dans les bibliothèques numériques.