Melina Plakidis*,**, Elena Leitner* et Georg Rehm*,**
*DFKI GmbH, Alt-Moabit 91c, 10559 Berlin, Germany
**Humboldt-Universität zu Berlin, Dorotheenstraße 24, 10117 Berlin, Germany
Résumé
En matière de détection de discours de haine et de langage offensant, l’intégration des connaissances sur les actes de langage représente une voie de recherche encore peu explorée. Dans nos précédents travaux, nous avons analysé si la répartition des actes de langage variait selon que les propos étaient injurieux ou non. Les résultats que nous avons obtenus ont confirmé cette hypothèse. Dans le présent article, pour affiner plusieurs modèles BERT et LLM, nous avons utilisé le jeu de données des actes de langage allemands. Nous poursuivons un double objectif. Nous souhaitons fournir des résultats pertinents à la théorie des actes de langage en développant et en mettant à disposition des modèles capables de mettre en œuvre la détection et la classification d’actes de langage dans des documents ou d’autres types de propos, des tweets notamment. Nous espérons que les actes de langage détectés pourront servir de caractéristiques supplémentaires et bénéficier à la détection des discours de haine. Notre modèle le plus performant atteint un score F1 macro-moyenné de 68,68 %.
Résumé (en anglais)
One under-researched avenue for hate speech and offensive language detection is the integration of knowledge related to speech acts. In previous work, we investigated whether the distribution of speech acts differs across offensive and non-offensive language. Our findings revealed supporting evidence. In the present article, we fine-tune several BERT models and LLMs on the German Speech Acts Dataset. Our goals are two-fold: we want to contribute relevant research results to speech act theory by developing and providing models that detect and classify speech acts in documents or other types of discourse such as tweets. We hope that detected speech acts can be used in a beneficial way as additional features in the detection of hate speech. Our best-performing model achieves a macro-averaged F1-score of 68.68%.
Document
Rank
3