Entrepôts, Représentation et Ingénierie des Connaissances
Journée Clustering de données textuelles dynamiques
L'équipe DMD organise le lundi 1er février (13h-17h) une demi-journée thématique sur le thème

Salle i 011 (RDC nouveau bâtiment i, Campus Porte des Alpes)

Clustering de données textuelles dynamiques

Programme :

  • 13h-14h30 : Julien Velcin (ERIC, Univ. Lyon 2), Dynamic topic modeling: a tutorial
  • 14h30-15h : pause café
  • 15h-15h45 : Pierre Ratinaud, (LERASS, Univ. de Toulouse), Quelques méthodes pour l'étude et la visualisation de la dynamique temporelle des classifications lexicales
  • 15h45-16h30 : Simon Gadras (ELICO, Univ. Lyon 2), Enjeux méthodologiques et posture théorique pour l’étude du web en SHS : l’exemple enpolitique.com et la campagne de 2012
  • 16h30-17h : Adrien Guille (ERIC, Univ. Lyon 2), Collection and Analysis of Tweets made Simple with CATS

Lieu :

Université Lyon 2, Campus de Bron, salle i 011, bât i

Inscription gratuite

gratuite mais obligatoire ici

Résumés

  • Julien Velcin (ERIC, Univ. Lyon 2), Dynamic topic modeling: a tutorial

    Dans ce tutoriel, je vais d'abord donner les informations essentielles pour comprendre le fonctionnement des modèles de thématiques (topic models), modèles très employés aujourd'hui dans le traitement statistiques des données textuelles. En particulier, j'illustrerai le type de résultats qu'on peut espérer obtenir sur plusieurs cas d'étude réels et je mettrai en évidence les avantages et les inconvénients de ce type d'approche. Je développerai ensuite plusieurs déclinaisons du modèle LDA (Latent Dirichlet Allocation) dans le cas de corpus présentant une dimension temporelle, avec en particulier les modèles DTM (Dynamic Topic Model) et TOT (Topic Over Time) qui prennent le temps en compte de manière différente.
    Références :
    Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3, 993-1022.
    Blei, D. M., & Lafferty, J. D. (2006, June). Dynamic topic models. In Proceedings of the 23rd international conference on Machine learning (pp. 113-120). ACM.
    Wang, X., & McCallum, A. (2006, August). Topics over time: a non-Markov continuous-time model of topical trends. In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 424-433). ACM.

  • Pierre Ratinaud, (LERASS, Univ. de Toulouse), Quelques méthodes pour l'étude et la visualisation de la dynamique temporelle des classifications lexicales

    Nous présenterons principalement deux méthodes permettant d'appréhender la temporalité dans le cadre de l'étude des thématiques de corpus textuels par classification. Ces méthodes ont pour objectif de restituer les variations chronologiques des «  mondes lexicaux  » que mettent en évidence les classifications relevant de la méthode Reinert (Ratinaud & Dejean, 2009; Ratinaud & Marchand, 2012; Reinert, 1983, 1990). Après avoir décrit les particularités de cette analyse, nous exposerons quelques graphiques qui rendent saillantes les variations d'expression des classes lexicales dans le temps. Nous appuierons cette présentation sur l'étude de corpus de tweets sur le mariage pour tous (Ratinaud, 2014) et sur les attentats de Paris de janvier 2015 (Ratinaud & Smyrnaios, 2015), et sur un corpus des débats à l'assemblée nationale entre 1998 et 2014 (Ratinaud & Marchand, 2015). Nous envisagerons ensuite une méthode utilisant les graphes dynamiques  : il s'agira, par l’intermédiaire du logiciel Gephi ou de la librairie ndtv de R, de visualiser la dynamique des graphes de cooccurrences dans les corpus textuels. Enfin, nous évoquerons le cas de l'affectation dynamique d'unités textuelles à des classifications pré-existantes, ainsi que les possibilités offertes par les outils de visualisation en 3D comme Blender.
    Références
    Ratinaud, P. (2014). Visualisation chronologique des analyses ALCESTE : application à Twitter avec l’exemple du hashtag #mariagepourtous. In Actes des 12eme Journées internationales d’Analyse statistique des Données Textuelles. JADT 2014 (p. 553‑ 565). Paris, France. Disponible ici
    Ratinaud, P., & Dejean, S. (2009). IRaMuTeQ : implémentation de la méthode ALCESTE d’analyse de texte dans un logiciel libre. Présenté à Modélisation Appliquée aux Sciences Humaines et Sociales (MASHS2009), Toulouse, France. Disponible ici
    Ratinaud, P., & Marchand, P. (2012). Application de la méthode ALCESTE à de «  gros  » corpus et stabilité des «  mondes lexicaux  » : analyse du «  CableGate  » avec IRaMuTeQ. In Actes des 11eme Journées internationales d’Analyse statistique des Données Textuelles (p. 835‑ 844). Liège, Belgique. Disponible ici
    Ratinaud, P., & Marchand, P. (2015). Des mondes lexicaux aux représentations sociales. Une première approche des thématiques dans les débats à l’Assemblée nationale (1998-2014). Mots. Les langages du politique, 2015(108), 57‑ 77.
    Ratinaud, P., & Smyrnaios, N. (2015). Une méthode pour articuler analyse des réseaux et des discours sur Twitter autour des controverses politiques. Présenté à Congrès national Association Française de Science Politique, Aix-en-Provence, France. Disponible ici
    Reinert, M. (1983). Une méthode de classification descendante hiérarchique  : application à l’analyse lexicale par contexte. Les cahiers de l’analyse des données, VIII(2), 187‑ 198.
    Reinert, M. (1990). ALCESTE : Une méthodologie d’analyse des données textuelles et une application : Aurélia de Gérard de Nerval. Bulletin de méthodologie sociologique, (26), 24‑ 54.

  • 15h45-16h30 : Simon Gadras (ELICO, Univ. Lyon 2), Enjeux méthodologiques et posture théorique pour l’étude du web en SHS : l’exemple enpolitique.com et la campagne de 2012

    Notre intervention vise à présenter le travail effectué dans le cadre d’un projet de recherche intitulé « enpolitique.com ». Réalisé par des chercheurs français et québécois issus des SHS (science politique et sciences de l’information et de la communication), en collaboration avec des informaticiens, ce projet avait pour objectif d’analyser l’utilisation du web lors des campagnes électorales qui ont eu lieu dans les deux territoires au cours de l’année 2012 (élection présidentielle en France et élection générale au Québec). L’étude a porté sur une diversité d’espaces web, essentiellement les sites web, Facebook et Twitter, et s’est intéressée aussi bien aux modalités de communication des candidats à l’élection qu’aux activités des internautes et militants pendant la campagne. Au-delà de la description de cette recherche, cette présentation entend souligner qu’il n’est possible de comprendre les enjeux communicationnels et politiques soulevés par le recours au web en campagne électorale qu’à condition de lier différentes méthodes d’enquête. Les méthodes qualitatives ou quantitatives manuelles fréquemment utilisées en SHS ne suffisent pas pour appréhender un terrain d’enquête de ce type. Le travail avec des informaticiens, s’il soulève des questions méthodologiques et pratiques, est indispensable. Mais à l’inverse, si les outils informatiques permettent de collecter et de traiter une quantité importante de données, ils ne suffisent pas pour saisir la dimension sociale des pratiques communicationnelles observées. L’utilisation conjointe des outils informatiques et des méthodes traditionnelles des SHS nous semble la condition pour limiter les biais impliqués par le bricolage sur des traces numériques massivement accessibles en ligne. La dimension sociale et symbolique des pratiques d’information et de communication que ce soient celles des équipes de campagne ou celles des internautes et militants, ne peut être appréhendée qu’en emboitant différents niveaux d’analyse et différentes méthodes.

  • 16h30-17h : Adrien Guille (ERIC, Univ. Lyon 2), Collection and Analysis of Tweets made Simple with CATS

    Je présenterai CATS (i.e. Collection and Analysis of Tweets made Simple), une application Web développée au sein du laboratoire ERIC et dont le but est de permettre aux chercheurs de tous horizons d’exploiter aisément la riche source de données textuelles que constitue Twitter (Truica, Guille & Gauthier 2016). Au travers d’une démonstration, je montrerai comment utiliser CATS pour cibler et collecter un grand corpus de tweets, puis je montrerai comment utiliser les algorithmes intégrés à l’application pour en extraire des informations utiles (e.g. évènements, thématiques, entités nommées). Par ailleurs, je détaillerai un des algorithmes intégrés dans CATS, à savoir MABED, qui est conçu pour détecter et décrire les évènements importants faisant réagir les utilisateurs de Twitter (Guille & Favre 2015).
    Références
    - Adrien Guille, Cécile Favre (2015) Event detection, tracking, and visualization in Twitter: a mention-anomaly-based approach. Springer Social Network Analysis and Mining (SNAM), vol. 5, iss. 1. http://mediamining.univ-lyon2.fr/mabed
    - Ciprian-Octavian Truica, Adrien Guille, Michael Gauthier (2016). CATS: Collection and Analysis of Tweets made Simple. In Proceedings of the ACM Conference on Computer-Supported Cooperative Work and Social Computing (CSCW). http://mediamining.univ-lyon2.fr/cats