KI 'Geistiges Auge': Visuelles Denken steigert die Leistung bei komplexen Aufgaben - Cambridge, Microsoft

Wenn Menschen versuchen, Probleme zu lösen, visualisieren sie die Aufgaben oft in ihrem Kopf. Neue Forschungsergebnisse deuten darauf hin, dass die Aktivierung künstlicher Intelligenz, um dasselbe zu tun, die Leistung bei räumlichen Denkaufgaben steigern könnte.

Während große Sprachmodelle in vielen textbasierten Aufgaben hervorragend sind, haben sie oft Schwierigkeiten mit solchen, die komplexere Denkprozesse erfordern. Um diese Lücke zu schließen, haben Forscher der University of Cambridge und von Microsoft Research einen neuen Ansatz entwickelt, der es der KI ermöglicht, sowohl in Text als auch in Bildern zu "denken".

Die Technik ermöglicht es multimodalen großen Sprachmodellen, visuelle Darstellungen ihrer Zwischenschritte zu generieren. In einer nicht von Fachleuten begutachteten Studie, die auf arXiv veröffentlicht wurde, berichten die Forscher, dass sie bei Tests des Ansatzes bei räumlichen Denkaufgaben mit 2D-Labyrinthen deutliche Verbesserungen gegenüber der typischen "Chain-of-Thought"-Technik (CoT) in den schwierigsten Szenarien feststellten.

"Räumliche Beziehungen und Anordnungen sowie einige geometrische Merkmale sind mit reinem Text nur sehr schwer zu beschreiben", sagt Co-Lead-Autor Chengzu Li, ein Doktorand in Cambridge. "Deshalb glauben wir, dass das Denken mit reinem Text die Leistung des Modells bei räumlichen Aufgaben einschränken würde. Und das ist die Hauptmotivation für die Einführung visueller 'Gedanken'", sagt er.

Der neue Ansatz ermöglicht es einem einzelnen multimodalen Modell, sowohl visuelle als auch textuelle Denkschritte selbst zu generieren. Für diese Experimente verwendeten die Forscher ein Modell namens Anole, das in beiden Modalitäten reagieren kann. Die Forscher haben ein vortrainiertes Modell mit Text- und Bilddaten aus drei labyrinthartigen Spielen mit unterschiedlichen Schwierigkeitsgraden feinabgestimmt. Sie nannten ihre feinabgestimmte Version Multimodal Visualization of Thought (MVoT).

Während des Tests wurde dem Modell nur das Startbild und eine Abfolge von Aktionen zur Durchführung gegeben. Anschließend generierte es Bild- und Textdenkschritte, gefolgt von einer Vorhersage, was passieren würde.

Sie fanden heraus, dass das MVoT-Modell in allen drei Spielen alle Modelle mit Ausnahme des Modells mit traditionellem Text-CoT deutlich übertraf. Dieses Modell schnitt in den beiden einfacheren Labyrinthen tatsächlich etwas besser ab und sagte das Ergebnis in beiden Fällen zu 98 Prozent erfolgreich voraus, verglichen mit den Werten von MVoT von 93 Prozent und 95 Prozent. Das traditionelle Text-CoT-Modell schnitt jedoch im kompliziertesten Spiel viel schlechter ab und erreichte nur 61 Prozent im Vergleich zu 86 Prozent von MVoT.

Die Forscher sagen, dass dieses Ergebnis wahrscheinlich darauf zurückzuführen ist, dass sich CoT auf genaue textuelle Beschreibungen der Umgebung stützt, die umso schwieriger werden, je komplexer die Labyrinthe werden. Im Gegensatz dazu scheint die Einbeziehung von Bildern in den Denkprozess MVoT viel besser im Umgang mit anspruchsvolleren Umgebungen zu machen.

Li sagt, dass die Ausweitung dieses Ansatzes auf komplexere Bereiche breite Anwendungsmöglichkeiten haben könnte. Eine der überzeugendsten ist die Robotik, wo der Ansatz Maschinen helfen könnte, die visuellen Eingaben, die sie aus der Umgebung erhalten, effektiver zu verarbeiten. Es könnte auch KI-Tutoren helfen, Ideen besser zu veranschaulichen und zu erklären, insbesondere in Bereichen wie der Geometrie. Im weiteren Sinne sagt er, dass der Ansatz die Interpretierbarkeit des Modells verbessern kann, indem er dem Menschen ein klares Bild davon vermittelt, worüber das Modell bei räumlichen Aufgaben nachdenkt.

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?

Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.