Un estudio reciente revela que los modelos de análisis de sentimiento (SA) pueden heredar sesgos políticos de anotadores humanos, incluso cuando las instrucciones tienen como objetivo prevenirlo. Este hallazgo plantea preocupaciones sobre la fiabilidad de la investigación de SA, especialmente en áreas políticamente sensibles. La investigación destaca que los modelos supervisados entrenados en conjuntos de datos anotados por humanos son susceptibles de reflejar los sesgos de esos anotadores. El modelo modificado, entrenado en un conjunto de datos podado de textos que contenían nombres de políticos, exhibió un sesgo significativamente menor que el modelo primario. Sin embargo, el modelo no puede aislarse completamente de la influencia de ciertas menciones que pueden afectar su resultado. Por ejemplo, al identificar menciones de Jarosław Kaczyński [jarɔˈswaf kaˈt͡ʂɨɲskʲi], se podrían incluir fragmentos relacionados con su hermano gemelo, Lech Kaczyński [ˈlɛx kaˈt͡ʂɨɲskʲi], lo que podría influir en las predicciones del modelo. El estudio encontró que el sesgo no se explicaba por la confianza pública en los políticos o la valencia de los tuits de datos de entrenamiento. El coeficiente de correlación intraclase moderado (0,6) indicó un acuerdo limitado entre los anotadores, lo que sugiere que el sesgo no era inherente al texto sino que provenía de la percepción subjetiva. Los investigadores sugieren que cuando los anotadores encontraban texto que mencionaba a un político, tendían a etiquetarlo de acuerdo con su propia orientación política, que luego aprendía el modelo. Una encuesta post-hoc de 15 de 20 anotadores mostró resultados generalmente consistentes con el sesgo observado. A medida que los modelos de lenguaje evolucionan, su comprensión se basa menos en entidades específicas y más en conceptos abstractos. Este cambio podría aumentar el riesgo de sesgo hacia conceptos abstractos como "anarquismo" o "democracia" si tales sesgos están presentes en los datos de entrenamiento. El estudio advierte contra el uso de modelos SA para la investigación y aconseja una interpretación cuidadosa de los resultados existentes. Los sistemas SA basados en léxico, que se basan en listas de palabras cargadas emocionalmente anotadas por separado, se consideran menos susceptibles a la propagación del sesgo, pero pueden sacrificar la precisión. El estudio concluye que la comunidad de investigación debería percibir los modelos de análisis de sentimiento basados en aprendizaje automático como sesgados hasta que se demuestre lo contrario y considerar la posibilidad de explorar enfoques alternativos. La principal limitación del estudio actual es su enfoque en un único modelo de análisis de sentimiento y un conjunto de datos específico compuesto en gran parte por textos políticos en polaco. La generalización de los hallazgos no se puede afirmar con certeza, aunque debe tenerse en cuenta.
Sesgo Político Detectado en Modelos de Análisis de Sentimiento: Las Inclinaciones de los Anotadores Impactan los Resultados
Lea más noticias sobre este tema:
¿Encontró un error o inexactitud?
Consideraremos sus comentarios lo antes posible.