Biais politique détecté dans les modèles d'analyse des sentiments : l'orientation des annotateurs influe sur les résultats

Une étude récente révèle que les modèles d'analyse des sentiments (SA) peuvent hériter des biais politiques des annotateurs humains, même lorsque les instructions visent à l'empêcher. Cette découverte soulève des inquiétudes quant à la fiabilité de la recherche en SA, en particulier dans les domaines politiquement sensibles. La recherche souligne que les modèles supervisés, entraînés sur des ensembles de données annotés par des humains, sont susceptibles de refléter les biais de ces annotateurs. Le modèle modifié, entraîné sur un ensemble de données expurgé des textes contenant les noms de politiciens, a présenté un biais significativement plus faible que le modèle principal. Cependant, le modèle ne peut pas être totalement isolé de l'influence de certaines mentions qui pourraient affecter son résultat. Par exemple, lors de l'identification des mentions de Jarosław Kaczyński [jarɔˈswaf kaˈt͡ʂɨɲskʲi], des extraits liés à son frère jumeau, Lech Kaczyński [ˈlɛx kaˈt͡ʂɨɲskʲi], pourraient être inclus, ce qui pourrait influencer les prédictions du modèle. L'étude a révélé que le biais n'était pas expliqué par la confiance du public envers les politiciens ou la valence des tweets des données d'entraînement. Le coefficient de corrélation intraclasse modéré (0,6) a indiqué un accord limité entre les annotateurs, suggérant que le biais n'était pas inhérent au texte mais découlait de la perception subjective. Les chercheurs suggèrent que lorsque les annotateurs rencontraient un texte mentionnant un politicien, ils avaient tendance à l'étiqueter en fonction de leur propre orientation politique, que le modèle apprenait ensuite. Une enquête post-hoc menée auprès de 15 des 20 annotateurs a montré des résultats généralement cohérents avec le biais observé. À mesure que les modèles linguistiques évoluent, leur compréhension repose moins sur des entités spécifiques et davantage sur des concepts abstraits. Ce changement pourrait augmenter le risque de biais envers des concepts abstraits tels que « l'anarchisme » ou la « démocratie » si de tels biais sont présents dans les données d'entraînement. L'étude met en garde contre l'utilisation de modèles SA pour la recherche et conseille une interprétation prudente des résultats existants. Les systèmes SA basés sur le lexique, qui reposent sur des listes de mots chargés émotionnellement annotés séparément, sont considérés comme moins susceptibles de propager les biais, mais peuvent sacrifier la précision. L'étude conclut que la communauté de la recherche devrait considérer les modèles d'analyse des sentiments basés sur l'apprentissage automatique comme biaisés jusqu'à preuve du contraire et envisager d'explorer d'autres approches. La principale limitation de l'étude actuelle est qu'elle se concentre sur un seul modèle d'analyse des sentiments et sur un ensemble de données spécifique largement composé de textes politiques en polonais. La généralisation des résultats ne peut être affirmée avec certitude, bien qu'elle doive être prise en considération.

Lisez plus d’actualités sur ce sujet :

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.