El 'Ojo Mental' de la IA: El Razonamiento Visual Impulsa el Rendimiento en Tareas Complejas - Cambridge, Microsoft

Cuando los humanos intentan resolver problemas, a menudo visualizan las tareas en sus cabezas. Una nueva investigación sugiere que permitir que la inteligencia artificial haga lo mismo podría impulsar el rendimiento en los desafíos de razonamiento espacial.

Si bien los grandes modelos de lenguaje sobresalen en muchas tareas basadas en texto, a menudo tienen dificultades con aquellas que requieren un razonamiento más complejo. Para intentar cerrar esa brecha, investigadores de la Universidad de Cambridge y Microsoft Research han desarrollado un nuevo enfoque que permite a la IA "pensar" tanto en texto como en imágenes.

La técnica permite a los grandes modelos de lenguaje multimodal generar representaciones visuales de sus pasos de razonamiento intermedios. En una investigación no revisada por pares publicada en arXiv, los investigadores informan que cuando probaron el enfoque en desafíos de razonamiento espacial que involucraban laberintos 2D, vieron mejoras significativas con respecto a la técnica típica de "cadena de pensamiento" (CoT) en los escenarios más desafiantes.

"Las relaciones espaciales y los diseños, así como algunas características geométricas, son muy difíciles de describir con texto puro", dice el coautor principal Chengzu Li, un estudiante de doctorado en Cambridge. "Es por eso que creemos que razonar con texto puro limitaría el rendimiento del modelo en tareas espaciales. Y esa es la principal motivación para introducir 'pensamientos' visuales", dice.

El nuevo enfoque permite que un solo modelo multimodal genere tanto pasos de razonamiento visual como textual por sí mismo. Para estos experimentos, los investigadores utilizaron un modelo llamado Anole que puede responder en cualquier modalidad. Los investigadores ajustaron un modelo preentrenado con datos de texto e imagen de tres juegos tipo laberinto con diferentes niveles de complejidad. Llamaron a su versión ajustada Visualización Multimodal del Pensamiento (MVoT).

Durante las pruebas, al modelo solo se le dio la imagen de inicio y una secuencia de acciones para realizar. Luego generó pasos de razonamiento de imagen y texto seguidos de una predicción de lo que sucedería.

Descubrieron que en los tres juegos, el modelo MVoT superó significativamente a todos los modelos, aparte del que usaba CoT de texto tradicional. Ese modelo en realidad funcionó un poco mejor en los dos laberintos más simples, prediciendo con éxito el resultado el 98 por ciento de las veces en ambos, en comparación con los puntajes de MVoT del 93 por ciento y el 95 por ciento. Pero el modelo CoT de texto tradicional funcionó mucho peor en el juego más complicado, obteniendo solo un 61 por ciento en comparación con el 86 por ciento de MVoT.

Los investigadores dicen que este resultado probablemente se deba a que CoT se basa en descripciones textuales precisas del entorno, que se vuelven más difíciles cuanto más complejos se vuelven los laberintos. Por el contrario, la inclusión de imágenes en el proceso de razonamiento parece hacer que MVoT sea mucho mejor para lidiar con entornos más desafiantes.

Li dice que extender este enfoque a dominios más complejos podría tener amplias aplicaciones. Una de las más convincentes es la robótica, donde el enfoque podría ayudar a las máquinas a razonar de manera más efectiva sobre la entrada visual que obtienen del entorno. También podría ayudar a los tutores de IA a ilustrar y explicar mejor las ideas, particularmente en áreas como la geometría. En términos más generales, dice que el enfoque puede mejorar la interpretabilidad del modelo al brindar a los humanos una imagen clara de lo que el modelo está pensando en las tareas espaciales.

¿Encontró un error o inexactitud?

Consideraremos sus comentarios lo antes posible.