Comparaison de méthodes pour la détection du discours des incels sur Reddit

Camille Demers* et Dominic Forest*
*Université de Montréal, École de bibliothéconomie et des sciences de l’information
Résumé
Les incels (célibataires involontaires) regroupent typiquement des hommes se trouvant dans l’incapacité de former des relations amoureuses ou intimes et partageant par conséquent des opinions négatives à l’endroit des femmes. Compte tenu de la gravité des attaques commises par des individus incels et de leur propension à se radicaliser sous l’effet de chambres d’écho, il s’avère plus que nécessaire de détecter le discours de ces communautés virtuelles. Cette étude compare la performance de différents systèmes de détection du discours incel utilisant une approche d’apprentissage par sacs de communautés. Les expérimentations menées permettent de comparer l’efficacité de diverses représentations vectorielles pour entraîner différents algorithmes d’apprentissage supervisé à détecter le discours incel dans un corpus de commentaires provenant de Reddit. Nos modèles les plus performants obtiennent une mesure-F globale variant entre 82,35 % en phase d’apprentissage et 79,70 % en phase de test.
Résumé (en anglais)
Incels (involuntary celibates) typically bring together men that are unable to form romantic or intimate relationships, and therefore share negative opinions about women. Given the seriousness of attacks committed by incel individuals as well as their propensity to radicalize under the effect of echo chambers, it is more than necessary to detect the discourse of these virtual communities. This study compares the performance of various incel speech detection systems using a bag-of-communities learning approach. The experiments carried out compare the effectiveness of various vector representations for training supervised learning algorithms to detect incel speech in a corpus of comments from Reddit. Our best-performing models achieve a macro F-score ranging from 82.35% in the learning phase to 79.70% in the test phase.
Document
Rank
2