Entrepôts, Représentation et Ingénierie des Connaissances
Publications du laboratoire

Recherche approfondie

par Année
par Auteur
par Thème
par Type
--------------------
- Tri-clustering pour données de comptage hal link

Auteur(s): Selosse M., Gourru A., Jacques J., Velcin J.

Conference: Journées des Statistiques (Nancy, FR, 2019-06-03)


Ref HAL: hal-02115353_v1
Exporter : BibTex | endNote
Résumé:

Les données de comptage sont très utilisées dans le monde actuel pour modéliser les occurrences d'un évènement (apparence d'un mot dans un texte, passage d'une voiture à un carrefour , contact entre deux personnes d'un réseau sociaux etc.). Ce travail s'intéresse aux données de comptage dynamiques, lorsque les occurrences sont dénombrées sur plusieurs périodes différentes. Dans ce cas, les données sont vues comme un tenseur (ou cube). L'approche proposée développe un algorithme de tri-clustering, qui va simultanément créer des clusters en ligne, en colonne et en profondeur. La distribution de Poisson est utilisée pour modéliser les données, et un algorithme EM variationnel est décrit pour inférer les paramètres du modèle. Mots-clés. tri-clustering, modèle des blocs latents Abstract. Count data are widely used to model the occurrences of an event (ap-pearance of a word in a text, car trafic at a crossroads, conversation between two people in a social network etc.). This work focuses on dynamic count data, where occurrences are enumerated over several different time periods. In this case, the data is seen as a tensor (or cube). The proposed approach develops a tri-clustering algorithm, which simultaneously creates clusters in lines, in columns and in depth. The Poisson distribution is used to model the data, and a variational EM algorithm is described to infer the model parameters.