Résumé

Entre le 28 octobre 2017 et le 13 novembre 2020, 4952 messages anonymes signés Q ont été publiés d’abord sur le site 4chan puis sur le site 8chan devenu récemment 8kun. Ce corpus de messages est désigné QAnon, pour leur lettre signature Q et leur caractère anonyme. Pour la mouvance QAnon entourant ce corpus, le signataire serait un officiel américain au bénéfice d'une habilitation Q lui donnant accès à des informations confidentielles ; et ce fonctionnaire publierait anonymement des informations destinées à préparer la population à des changements politiques importants. À notre connaissance, le corpus QAnon n’a pas encore été soumis à une analyse stylométrique capable de caractériser le style d’un rédacteur. L’approche machine learning non-supervisée par analyse statistique multivariée permet de faire apparaître des séquences de texte clustérisés par style propre à un auteur.

L’ensemble du corpus est collecté afin de challenger la proposition qu’un seul rédacteur soit l’auteur unique des Q-drops propres à QAnon. À cette fin, les textes trop courts, les citations et les discours de personnages historiques par exemple, ne portant pas de syntaxe personnelle au rédacteur anonyme, ont été écartés pour les analyses. Les analyses statistiques multivariées se focalisent sur la comparaison des profils de patterns de trois lettres pour définir les styles utilisés dans QAnon.

La stylométrie des concaténats de 7,5k de Q-drops classés chronologiquement révèle deux clusters, caractéristiques de deux styles différents, qui correspondent aux deux périodes de publication des Q-drops sur les forums 4chan et 8chan. Cette observation éclaire les informations de contexte des enquêtes médiatiques. Le signal est porté majoritairement par les Q-drops de moins de 1000 caractères et la clusterisation ne semble pas interférer les analyses. L’autre type de concaténation testé, la concaténation par taille, se révèle incapable de clustériser raisonnablement. Un taux de succès a été calculé par analyse de clustering non hiérarchisé: plus de 90%. Ce taux est comparable à celui mesuré dans une affaire criminelle dont l’enquête est en cours et à celui obtenu sur des textes d’une affaire résolue.

D’autres algorithmes sont disponibles qui permettraient de préciser les résultats déjà obtenus. Si des textes de candidats rédacteurs sont fournis, cette connaissance du corpus QAnon faciliterait l’identification des personnes susceptibles d’avoir écrit des Q-drops.

Téléchargez ce rapport en pdf (en anglais).

Article précédent Article suivant