Entrepôts, Représentation et Ingénierie des Connaissances
Publications of the ERIC lab

Search

by Year
by Author
by Topic
by Type
--------------------
- Tri-clustering pour données de comptage hal link

Author(s): Selosse M., Gourru A., Jacques J., Velcin J.

Conference: Journées des Statistiques (Nancy, FR, 2019-06-03)


Ref HAL: hal-02115353_v1
Exporter : BibTex | endNote
Abstract:

Les données de comptage sont très utilisées dans le monde actuel pour modéliser les occurrences d'un évènement (apparence d'un mot dans un texte, passage d'une voiture à un carrefour , contact entre deux personnes d'un réseau sociaux etc.). Ce travail s'intéresse aux données de comptage dynamiques, lorsque les occurrences sont dénombrées sur plusieurs périodes différentes. Dans ce cas, les données sont vues comme un tenseur (ou cube). L'approche proposée développe un algorithme de tri-clustering, qui va simultanément créer des clusters en ligne, en colonne et en profondeur. La distribution de Poisson est utilisée pour modéliser les données, et un algorithme EM variationnel est décrit pour inférer les paramètres du modèle. Mots-clés. tri-clustering, modèle des blocs latents Abstract. Count data are widely used to model the occurrences of an event (ap-pearance of a word in a text, car trafic at a crossroads, conversation between two people in a social network etc.). This work focuses on dynamic count data, where occurrences are enumerated over several different time periods. In this case, the data is seen as a tensor (or cube). The proposed approach develops a tri-clustering algorithm, which simultaneously creates clusters in lines, in columns and in depth. The Poisson distribution is used to model the data, and a variational EM algorithm is described to infer the model parameters.