Méthodologie
Cette page a pour objectif principale de détailler la méthodologie relative à la récupération des données et aux traitements des données réalisés.
N’hésitez pas à nous suivre et nous contacter si la méthodologie vous paraît erronnée ou incomplète 🤗
1. Collecte des données
Nous utilisons la fonctionnalité de stream de Twitter : Stream Tweets in real-time
En utilisant l’API Twitter vous pouvez simplement être en écoute sur des tweets qui contiennent certains hashtags (1er critère) ou qui ont été postés par des comptes sélectionnés (2ème critère). On collecte ainsi tous les tweets respectant ces deux critères. Nous collectons également tous les retweets ou commentaires de ces premiers tweets.
2. Traitement des données
a. Nettoyage du texte
Les tweets contiennent une information textuelle. Ce contenu est analysé en utilisant la librairie python Spacy.
Nous considérons qu’un retweet propage le contenu textuel du tweet retweeté. Par conséquence si le contenu texte d’un tweet parle de la thématique “climat” nous considérons qu’il en est de même pour tous ses retweets.
b. Classification des tweets
Pour des raisons de transparence, pour le moment seuls des modèles simples sont utilisés pour associer un tweet à une thématique, personnalité politique ou à un parti politique. La présence d'un mot, hashtag ou l'auteur du tweet sont les moyens appliqués aujourd'hui pour catégoriser les tweets
Comment un tweet est associé à une personnalité ou un parti :
Comment le contenu d’un tweet est associé à une thématique :
3. Extrapolation des résultats
Par défaut, les résultats sont présentés en considérant l’ensemble des tweets et retweets analysés au même niveau : chaque tweet et retweet ont un poids égale.
Extrapoler les informations issues d’un contenu observé (pour le moment principalement de Twitter) est un travail complexe. Aujourd’hui on peut difficilement conclure sur l’activité politique française à partir du simple contenu Twitter. Un petit article évoquant ce sujet sortira bientôt sur le blog d’Octo Technology 🤓
Variation de représentation "Chaque utilisateur a le même poids"
Pour pallier le poids de certaines communautés retweetant quasi automatiquement et gonflant de façon artificielle l’activité réelle, une représentation alternative sera proposée où le poids de chaque utilisateur sera équivalente (vs chaque tweet a le même poids). L'analyse de messages politiques se doit d’être le plus impartiale possible. C’est pourquoi si cette représentation est utilisée, sa définition doit être bien définie. J’espère terminer mes études sur ce sujet 🤔 et communiquer rapidement sur cette possible nouvelle représentation.
4. Les autres concepts
Lorsqu'on parle de significativité du vocabulaire
Afin d’évaluer si un vocabulaire est représentatif d’un groupe, ou d’une période de temps nous calculons la fréquence de ce vocabulaire () dans ce groupe et nous la comparons à la fréquence () qu’il a dans l’ensemble de notre périmètre (ensemble des tweets).
Nous calculons la valeur suivante que certains en France appelent le Chi-deux signé :