Entrepôts, Représentation et Ingénierie des Connaissances
Publications of the ERIC lab

Search

by Year
by Author
by Topic
by Type
--------------------
- Classification ascendante hiérarchique à noyaux et une application aux données textuelles hal link

Author(s): Ah-Pine J., Wang X.

Conference: EGC (Grenoble, FR, 2017)
Proceedings: , vol. vol.RNTI-E-33 p. ()


Ref HAL: hal-01525446_v1
Abstract:

La formule de Lance et Williams permet d'unifier plusieurs méthodes de classification ascendante hiérarchique (CAH). Dans cet article, nous suppo-sons que les données sont représentées dans un espace euclidien et nous établis-sons une nouvelle expression de cette formule en utilisant les similarités cosinus au lieu des distances euclidiennes au carré. Notre approche présente les avan-tages suivants. D'une part, elle permet d'étendre naturellement les méthodes classiques de CAH aux fonctions noyau. D'autre part, elle permet d'appliquer des méthodes d'écrêtage permettant de rendre la matrice de similarités creuse afin d'améliorer la complexité de la CAH. L'application de notre approche sur des tâches de classification automatique de données textuelles montre d'une part, que le passage à l'échelle est amélioré en mémoire et en temps de traitement; d'autre part, que la qualité des résultats est préservée voire améliorée.