Entrepôts, Représentation et Ingénierie des Connaissances
Thèmes de recherche

Apprentissage automatique pour la fouille de données

Une partie des travaux de l'équipe porte sur le développement de nouvelles techniques d'apprentissage automatique (machine learning). Tout d'abord, des nouvelles méthodes d'ensemble, méthodes qui consistent à agréger plusieurs classifieurs afin d'améliorer les résultats de l'apprentissage supervisé, ont été proposés. En particulier, l'équipe a réalisé des contributions théoriques sur des ensembles composés de forêts aléatoires. Dans une autre optique, nous nous sommes plutôt intéressés à l'extraction de règles d'association de classe et à leur évaluation à l'aide de mesures d'intérêt. En collaboration avec Telecom Bretagne, nous avons identifié et généralisé un certain nombre de propriétés d'antimonotonie et nous avons ensuite établi des conditions nécessaires et/ou suffisantes pour qu’une mesure d'intérêt possède ces propriétés. L'équipe a également étudié le problème de la classification non supervisée dans son ensemble : critères de classification, mesures de similarités, modélisation sous forme de problèmes d'optimisation et algorithmes qui passent à l'échelle. Un algorithme de complexité linéaire et ne dépendant pas de l'ordre des individus a été proposé. D'autre travaux ont concerné les modèles d'apprentissage non supervisé dédiés à l'analyse de données textuelles (topic models). En particulier, l'équipe a proposé des algorithmes d'étiquetage des catégories thématiques (clusters) et d'évaluation de la qualité des thématiques obtenues. Réalisé en collaboration avec des chercheurs de l'Ecole Polytechnique de Bucarest, l'algorithme d'évaluation permet d'émuler le jugement humain en se basant sur une recherche de correspondance (mapping) entre les thématiques et une base de connaissance lexicale. Notons enfin des travaux sur l'apprentissage automatique de la structure de réseaux bayésiens lorsque le nombre de variable est très grand. L'idée consiste à réaliser l'apprentissage sur des sous-ensembles de variables de taille raisonnable, puis de recombiner les différents résultats. Pour finir, des méthodes numériques basés sur des algorithmes de type réseaux de neurones ont été appliqués pour la modélisation économique et financière.

Modélisation, caractérisation, fouille dans les graphes

Dans ce deuxième axe, les chercheurs de l'équipe ont travaillé sur l'analyse de graphes, avec des contributions sur les voisinages dans les graphes, sur la recherche d'information dans ces graphes, et sur la caractérisation de famille de graphes. En particulier, l'équipe a récemment développé une approche d'apprentissage qui utilise des graphes de voisinage pour la comparaison, le regroupement et l'équivalence topologique de mesures de proximité. D'autres travaux ont permis d'étudier les propriétés structurelles des graphes. Ainsi, l'équipe a étudié la décomposition de graphes (graphes orientés et 2-structures) en 2-clans, qui sont des modules (ou clans) à deux éléments, ainsi que leurs caractérisation par l'utilisation d'homotopies. Des travaux récents ont également été menés sur la recherche d'information au sein de graphes, dans une approche de fouille du Web (web mining). L'approche a consisté à prendre en compte à la fois la structure du graphe (degrés, composantes connexes, etc.) et le contenu textuel des noeuds. Nous avons montré qu'il était possible d'extraire le réseau social sous-jacent à des discussions en ligne, d'en extraire les messages les plus intéressants et les acteurs jouant des rôles clefs. Enfin, un algorithme d'extraction des communautés, basé sur une approche prétopologique, a été proposé et testé efficacement sur des données bibliogaphiques, en collaboration avec le laboratoire Hubert Curien de Saint-Etienne.

Modèles pour l'aide à la décision

Les membres de l'équipe qui travaillent sur cet axe de recherche se sont intéressés aux méthodes et aux modèles d'aide à la prise de décision collective, multicritères et multi-objectifs. Des recherches théoriques ont été menées afin d'étudier les propriétés de nouvelles méthodes dans le cadre de l'analyse multicritères : propriétés des intégrales de Sugeno, modèles à base de points de référence, modèles à base de bicapacités. D'autres travaux ont été plus particulièrement axés sur la théorie de l'évidence et des possibilités, mais aussi sur l'étude des liens et interactions possibles entre l'aide à la décision multicritères et les autres champs de la théorie des processus décisionnels et de l'apprentissage supervisé, ou encore sur l'agrégation par programmation linéaire. Des applications ont été développées en collaboration avec d'autres partenaires : utilisation de l'intégrale de Choquet pour la reconnaissance d'image en collaboration avec le LIRMM, aide à la sélection de fruits en collaboration avec l'INRA d'Avignon, adaptation de méthodes d'analyse multicritère en santé. Du point de vue de la prise de décision dans le cadre d'une optimisation multiobjectif, les travaux développés proposent un nouvel algorithme évolutionnaire hybride HEMH combinant différentes techniques (DM-GRASP, Path-Relinking et recherche locale) pour résoudre le problème du sac à dos multi-objectif. Des recherches ont été menées spécifiquement sur l'intégration de la prise en compte du décideur pour aider au choix des bonnes solutions.

Analyse des données complexes et fouille d'opinions

En suivant cet axe, l'équipe privilégie l'élaboration de nouvelles techniques d'analyse des données et leur utilisation sur des données complexes : données temporelles/évolutives, textuelles, mixtes (variables quantitatives et qualitatives). De nouvelles méthodes ont été proposées : analyse des associations dissymétriques dans le cadre de l'analyse des correspondances et de l'analyse de la variance, traitement des données mixtes (quantitatives et qualitatives) dans le contexte de l'analyse en composantes principales et enfin, des techniques de classement et de prédiction par l'analyse discriminante sur données évolutives, sur données mixtes ou encore à plusieurs variables cibles-groupes . Récemment, l'équipe s'est attaquée au cas des données textuelles complexes car elles contiennent des opinions parfois difficiles à déceler, elles sont produites par des acteurs eux-mêmes inscrits dans un réseau de relations, et elles évoluent au fil du temps. Ces données posent de nombreux problèmes d'analyse descriptive et de visualisation, d'une part, et de validation (comment découper un corpus ainsi structuré en échantillons d'apprentissage et de validation ?) d'autre part. Sur ces thèmes, l'équipe a notamment proposé une nouvelle visualisation pour le suivi de données textuelles évolutives, en collaboration avec l'IRISA (Rennes) et l'Université de Zagreb.