L'Œil de l'Esprit de l'IA : Le Raisonnement Visuel Améliore les Performances dans les Tâches Complexes - Cambridge, Microsoft

Lorsque les humains essaient de résoudre des problèmes, ils visualisent souvent les tâches dans leur tête. De nouvelles recherches suggèrent que permettre à l'intelligence artificielle de faire de même pourrait améliorer les performances dans les défis de raisonnement spatial.

Bien que les grands modèles linguistiques excellent dans de nombreuses tâches textuelles, ils ont souvent du mal avec celles qui nécessitent un raisonnement plus complexe. Pour tenter de combler cette lacune, des chercheurs de l'Université de Cambridge et de Microsoft Research ont développé une nouvelle approche qui permet à l'IA de « penser » à la fois en texte et en images.

La technique permet aux grands modèles linguistiques multimodaux de générer des représentations visuelles de leurs étapes de raisonnement intermédiaires. Dans une recherche non évaluée par des pairs publiée sur arXiv, les chercheurs rapportent que lorsqu'ils ont testé l'approche sur des défis de raisonnement spatial impliquant des labyrinthes 2D, ils ont constaté des améliorations significatives par rapport à la technique typique de « chaîne de pensée » (CoT) dans les scénarios les plus difficiles.

« Les relations spatiales et les dispositions, ainsi que certaines caractéristiques géométriques, sont très difficiles à décrire avec du texte pur », explique Chengzu Li, co-auteur principal et doctorant à Cambridge. « C'est pourquoi nous pensons que le raisonnement avec du texte pur limiterait les performances du modèle dans les tâches spatiales. Et c'est la principale motivation pour introduire des « pensées » visuelles », dit-il.

La nouvelle approche permet à un seul modèle multimodal de générer lui-même des étapes de raisonnement visuelles et textuelles. Pour ces expériences, les chercheurs ont utilisé un modèle appelé Anole qui peut répondre dans l'une ou l'autre modalité. Les chercheurs ont affiné un modèle pré-entraîné sur des données textuelles et d'images provenant de trois jeux de type labyrinthe avec différents niveaux de complexité. Ils ont appelé leur version affinée Multimodal Visualization of Thought (MVoT).

Pendant les tests, le modèle n'a reçu que l'image de départ et une séquence d'actions à effectuer. Il a ensuite généré des étapes de raisonnement d'image et de texte suivies d'une prédiction de ce qui allait se passer.

Ils ont constaté que dans les trois jeux, le modèle MVoT surpassait considérablement tous les modèles, à l'exception de celui utilisant le CoT textuel traditionnel. Ce modèle a en fait obtenu de meilleurs résultats dans les deux labyrinthes les plus simples, prédisant avec succès le résultat 98 % du temps dans les deux cas, contre 93 % et 95 % pour MVoT. Mais le modèle CoT textuel traditionnel a obtenu des résultats bien pires dans le jeu le plus compliqué, avec un score de seulement 61 % contre 86 % pour MVoT.

Les chercheurs affirment que ce résultat est probablement dû au fait que le CoT repose sur des descriptions textuelles précises de l'environnement, qui deviennent plus difficiles à mesure que les labyrinthes deviennent plus complexes. En revanche, l'inclusion d'images dans le processus de raisonnement semble rendre MVoT beaucoup plus apte à gérer les environnements plus difficiles.

Li affirme que l'extension de cette approche à des domaines plus complexes pourrait avoir de vastes applications. L'une des plus intéressantes est la robotique, où l'approche pourrait aider les machines à raisonner plus efficacement sur les informations visuelles qu'elles reçoivent de l'environnement. Cela pourrait également aider les tuteurs d'IA à mieux illustrer et expliquer les idées, en particulier dans des domaines comme la géométrie. Plus largement, il affirme que l'approche peut améliorer l'interprétabilité du modèle en donnant aux humains une image claire de ce à quoi le modèle pense dans les tâches spatiales.

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.