Entrepôts, Représentation et Ingénierie des Connaissances
Publications du laboratoire

Recherche approfondie

par Année
par Auteur
par Thème
par Type
--------------------
- Co-clustering de données textuelles et continues hal link

Auteur(s): Selosse M., Jacques J., Biernacki Christophe

Conference: FSdS 2018 - 50èmes Journées de Statistique (Saclay, FR, 2018-05-28)
Actes de conférence: , vol. p. ()


Ref HAL: hal-01797493_v1
Exporter : BibTex | endNote
Résumé:

Le clustering est un outil essentiel pour l’analyse de données. C’est unemanière de résumer un jeu de données en formant des groupes homogènes d’observations(les clusters). Cependant, le phénomène «big-data »a fait croître le nombre de variables,conduisant à l’émergence de jeux de données de grande dimension, parfois à un niveautel que les techniques de clustering ne sont plus toujours adaptées pour discerner desstructures. En effet, l’analyse d’un cluster repose généralement sur un représentant de cecluster (par exemple la moyenne). Néanmoins, ce dernier est lui-même décrit par un grandnombre de variables, ce qui rend difficile l’interprétation et hasardeuse l’estimation. Decette observation naît le besoin de «résumer »aussi les variables, ce que leur regroupementen clusters peut permettre, de façon symmétrique au regroupement classique des individusen clusters. Le co-clustering est alors une méthode candidate car elle réalise un clusteringsimultané des lignes et des colonnes. Dans le cas de l’analyse de données textuelles, etnotamment le clustering de document, le co-clustering est un thème largement étudiélors de ces dernières années. Cependant, la plupart des approches ne permettent pas deprendre en compte, en plus des données textuelles, d’autres variables. Le travail présentépropose une extension du modèle des blocs latents pour des jeux de données avec desvariables textuelles et continues.