Eine aktuelle Studie zeigt, dass Sentimentanalysemodelle (SA) politische Voreingenommenheiten von menschlichen Annotatoren übernehmen können, selbst wenn die Anweisungen dies verhindern sollen. Dieses Ergebnis wirft Bedenken hinsichtlich der Zuverlässigkeit der SA-Forschung auf, insbesondere in politisch sensiblen Bereichen. Die Forschung unterstreicht, dass überwachte Modelle, die auf von Menschen annotierten Datensätzen trainiert werden, anfällig dafür sind, die Voreingenommenheiten dieser Annotatoren widerzuspiegeln. Das modifizierte Modell, das auf einem Datensatz trainiert wurde, der von Texten mit den Namen von Politikern bereinigt wurde, wies eine deutlich geringere Voreingenommenheit auf als das primäre Modell. Das Modell kann jedoch nicht vollständig von dem Einfluss bestimmter Erwähnungen isoliert werden, die seine Ausgabe beeinflussen könnten. Bei der Identifizierung von Erwähnungen von Jarosław Kaczyński [jarɔˈswaf kaˈt͡ʂɨɲskʲi] könnten beispielsweise Textausschnitte im Zusammenhang mit seinem Zwillingsbruder Lech Kaczyński [ˈlɛx kaˈt͡ʂɨɲskʲi] enthalten sein, die die Vorhersagen des Modells beeinflussen könnten. Die Studie ergab, dass die Voreingenommenheit nicht durch das öffentliche Vertrauen in Politiker oder die Valenz der Trainingsdaten-Tweets erklärt wurde. Der moderate Intraklassen-Korrelationskoeffizient (0,6) deutete auf eine begrenzte Übereinstimmung zwischen den Annotatoren hin, was darauf hindeutet, dass die Voreingenommenheit nicht dem Text inhärent war, sondern auf einer subjektiven Wahrnehmung beruhte. Die Forscher legen nahe, dass Annotatoren dazu neigten, einen Text, in dem ein Politiker erwähnt wurde, entsprechend ihrer eigenen politischen Ausrichtung zu kennzeichnen, was das Modell dann lernte. Eine Post-hoc-Umfrage unter 15 von 20 Annotatoren zeigte Ergebnisse, die im Allgemeinen mit der beobachteten Voreingenommenheit übereinstimmten. Mit der Weiterentwicklung von Sprachmodellen stützt sich ihr Verständnis weniger auf spezifische Entitäten und mehr auf abstrakte Konzepte. Diese Verschiebung könnte das Risiko einer Voreingenommenheit gegenüber abstrakten Konzepten wie "Anarchismus" oder "Demokratie" erhöhen, wenn solche Voreingenommenheiten in den Trainingsdaten vorhanden sind. Die Studie warnt vor der Verwendung von SA-Modellen für die Forschung und rät zu einer sorgfältigen Interpretation bestehender Ergebnisse. Lexikbasierte SA-Systeme, die auf Listen von emotional aufgeladenen Wörtern basieren, die separat annotiert werden, gelten als weniger anfällig für die Ausbreitung von Voreingenommenheit, können aber die Genauigkeit beeinträchtigen. Die Studie kommt zu dem Schluss, dass die Forschungsgemeinschaft maschinelles Lernen-basierte Sentimentanalysemodelle als voreingenommen betrachten sollte, bis das Gegenteil bewiesen ist, und die Erforschung alternativer Ansätze in Betracht ziehen sollte. Die Haupteinschränkung der aktuellen Studie ist die Konzentration auf ein einzelnes Sentimentanalysemodell und einen spezifischen Datensatz, der größtenteils aus politischen Texten auf Polnisch besteht. Die Verallgemeinerbarkeit der Ergebnisse kann nicht mit Sicherheit festgestellt werden, sollte aber berücksichtigt werden.
Politische Voreingenommenheit in Sentimentanalysemodellen festgestellt: Die Neigungen der Annotatoren beeinflussen die Ergebnisse
Weitere Nachrichten zu diesem Thema lesen:
Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?
Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.