Политическая предвзятость в моделях анализа тональности: взгляды аннотаторов влияют на результаты

Недавнее исследование показывает, что модели анализа тональности (SA) могут наследовать политическую предвзятость от людей-аннотаторов, даже если инструкции направлены на предотвращение этого. Этот вывод вызывает опасения по поводу надежности исследований SA, особенно в политически чувствительных областях. Исследование подчеркивает, что контролируемые модели, обученные на наборах данных, аннотированных людьми, восприимчивы к отражению предвзятости этих аннотаторов. Модифицированная модель, обученная на наборе данных, очищенном от текстов, содержащих имена политиков, продемонстрировала значительно меньшую предвзятость, чем основная модель. Однако модель не может быть полностью изолирована от влияния определенных упоминаний, которые могут повлиять на ее результат. Например, при идентификации упоминаний Ярослава Качиньского [jarɔˈswaf kaˈt͡ʂɨɲskʲi] могут быть включены фрагменты, связанные с его братом-близнецом Лехом Качиньским [ˈlɛx kaˈt͡ʂɨɲskʲi], что может повлиять на прогнозы модели. Исследование показало, что предвзятость не объяснялась общественным доверием к политикам или валентностью твитов обучающих данных. Умеренный коэффициент внутриклассовой корреляции (0,6) указал на ограниченное согласие между аннотаторами, что предполагает, что предвзятость не была присуща тексту, а проистекала из субъективного восприятия. Исследователи предполагают, что, когда аннотаторы сталкивались с текстом, упоминающим политика, они, как правило, маркировали его в соответствии со своей собственной политической ориентацией, которую затем усваивала модель. Постфактум опрос 15 из 20 аннотаторов показал результаты, в целом согласующиеся с наблюдаемой предвзятостью. По мере развития языковых моделей их понимание меньше зависит от конкретных сущностей и больше от абстрактных понятий. Этот сдвиг может увеличить риск предвзятости по отношению к абстрактным понятиям, таким как «анархизм» или «демократия», если такие предубеждения присутствуют в обучающих данных. Исследование предостерегает от использования моделей SA для исследований и советует тщательно интерпретировать существующие результаты. Системы SA на основе лексики, которые опираются на списки эмоционально окрашенных слов, аннотированных отдельно, считаются менее восприимчивыми к распространению предвзятости, но могут жертвовать точностью. Исследование приходит к выводу, что исследовательское сообщество должно воспринимать модели анализа тональности на основе машинного обучения как предвзятые, пока не доказано обратное, и рассмотреть возможность изучения альтернативных подходов. Основным ограничением текущего исследования является его сосредоточенность на одной модели анализа тональности и конкретном наборе данных, в основном состоящем из политических текстов на польском языке. Обобщаемость результатов не может быть заявлена с уверенностью, хотя ее следует учитывать.

Читайте больше новостей по этой теме:

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.