Entrepôts, Représentation et Ingénierie des Connaissances
Publications du laboratoire

Recherche approfondie

par Année
par Auteur
par Thème
par Type
--------------------
- Jeux de cubes pour les graphes ... Ou comment des graphes enrichis par des cubes (GreC) peuvent contribuer à l'analyse de données textuelles ? hal link

Auteur(s): Favre C., Jakawat W., Loudcher S.

Conférence invité: journées "Analyse de données textuelles" (GDR MADICS, action ADOC) en conjonction avec la conférence EDA (Lyon, FR, 2017-05-03)


Ref HAL: halshs-01577053_v1
Résumé:

Les données textuelles constituent une part importante des données porteuses de connais-sances à découvrir. Ces données présentent souvent deux caractéristiques : d'une part, le fait que différents axes d'analyse peuvent être pertinents pour résumer l'information ; d'autre part la possibilité de représenter en réseau certaines informations. La première caractéristique sous-tend une analyse multidimensionnelle de type OLAP (OnLine Analytical Processing) très liée aux entrepôts de données avec notamment une représentation sous forme de cube de données, dont les cellules contiennent une mesure (indicateur) permettant l'analyse d'un fait, en fonc-tions de dimensions (axes d'analyse) qui définissent le cube. Ce type d'analyse se base sur des opérateurs de navigation dans les données. La deuxième caractéristique relève d'une approche d'analyse/de visualisation de graphe. Pour illustrer cela, un premier exemple se trouve dans l'analyse de données textuelles issues de messages Twitter : d'une part le nombre de messages peut être analysé en fonction de leur auteur, de leur temporalité, du sujet traité, etc. ; d'autre part, il peut être utile de s'intéres-ser au réseau des Twittos où les arêtes représentent par exemple les liens d'abonnement. Un second exemple se situe dans le contexte de l'analyse de la production scientifique. Il peut être pertinent d'analyser cette production au travers du nombre de papiers publiés selon différents axes que seraient leurs auteurs, l'année de publication, les thématiques, etc. De plus, il est intéressant d'analyser le graphe des auteurs pour s'intéresser au réseau de collaborations (co-publications), ou au réseau de citations. Dans cette communication, nous utiliserons ce second exemple de données bibliographiques pour illustrer nos propos. Considérant la double caractéristique des données textuelles évoquée précédemment, et afin de tirer ainsi parti de ces deux visualisations (graphe et cube), un nouveau type d'ana-lyse est apparu : Graph OLAP (Chen et al., 2008). L'idée, sur laquelle elle repose, consiste à construire un cube de graphes dans lequel il est possible de naviguer. Plus précisément, dans cette approche de Graph OLAP, il s'agit de considérer des cubes définis selon des dimensions dites informationnelles, et la mesure contenue dans les cellules correspond à des graphes ou plus exactement à des sous-graphes, qui peuvent présenter des dimensions dites topologiques. Ainsi, les différentes approches relevant de Graph OLAP permettent de visualiser des "instan-tanés" de graphes en fonction des dimensions d'analyse choisies. Différents opérateurs ont été