Anthropos 'Mikroskop' enthüllt die Denkweise der KI Claude

Edited by: Veronika Nazarova

Anthropic, ein führendes Unternehmen für KI-Sicherheit und -Forschung, hat neue Tools auf den Markt gebracht, die Einblicke in die Denkweise fortschrittlicher Sprachmodelle geben. Diese Tools fungieren als 'Mikroskop' für KI und ermöglichen es Wissenschaftlern, interne Berechnungen in Modellen wie Claude nachzuvollziehen. Ziel der Forschung ist es, zu verstehen, wie KI-Modelle Informationen verarbeiten und Antworten generieren. Forscher können nun 'Schaltkreise' abbilden, die mit spezifischen Fähigkeiten wie Denken und Übersetzen verbunden sind. Diese 'Schaltkreisverfolgungsmethode' ermöglicht die Veränderung interner Darstellungen während der Eingabeaufforderung. Beispielsweise verändert die Modifizierung von Claudes poetischem Planungszustand seine Reimwahl und demonstriert die interne Anpassungsfähigkeit des Modells. Claudes interne Funktionsweise ist komplexer als sie scheint, selbst bei einfachen Aufgaben. Das Modell verwendet parallele Berechnungen für Mathematik und schätzt Summen, während es präzise Ziffern berechnet. Die Interpretationswerkzeuge von Anthropic sind entscheidend, um sicherzustellen, dass KI-Systeme sicher, vorhersehbar und auf menschliche Werte ausgerichtet sind.

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?

Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.