GPT-4.5 alcanza un rendimiento de nivel humano en la prueba de Turing, engañando al 73% de los participantes

Editado por: gaya ❤️ one

Un estudio reciente indica que el modelo GPT-4.5 de OpenAI ha demostrado un rendimiento de nivel humano en una prueba de Turing de tres participantes. La investigación, realizada por la Universidad de California, San Diego, encontró que GPT-4.5 fue identificado como humano el 73% de las veces cuando se le solicitó que adoptara una personalidad específica. Esto excede significativamente la línea de base del 50%, lo que sugiere que los participantes a menudo confundieron la IA con un humano. El estudio involucró a casi 300 participantes que participaron en conversaciones basadas en texto con un humano y un modelo de IA. La tarea de los interrogadores era identificar al participante humano. Los modelos de IA se evaluaron en dos condiciones: con un mensaje de instrucción mínimo y con un mensaje de personalidad mejorado que guió a la IA para adoptar un comportamiento similar al humano. La investigación también evaluó el modelo Llama 3.1-405B de Meta, el modelo GPT-4o de OpenAI y un chatbot temprano conocido como ELIZA. Los resultados indicaron que GPT-4.5, al usar el mensaje de personalidad, logró una tasa de éxito del 73%. Llama 3.1-405B con el mensaje de personalidad alcanzó una tasa de éxito de alrededor del 56%, mientras que GPT-4o en condiciones sin personalidad solo alcanzó una tasa de éxito del 21%. Esto sugiere que el mensaje de personalidad mejoró significativamente la capacidad de la IA para imitar la conversación humana. El estudio destaca los avances en la capacidad de la IA para simular la interacción humana y plantea preguntas sobre las implicaciones de dicha tecnología.

¿Encontró un error o inexactitud?

Consideraremos sus comentarios lo antes posible.