OpenAI hat Operator eingeführt, einen fortschrittlichen KI-Agenten, der entwickelt wurde, um Webaufgaben zu automatisieren und menschliches Eingreifen zu reduzieren. Derzeit ist er nur für Pro-Abonnenten in den USA verfügbar.
Operator nutzt das Modell Computer-Using Agent (CUA), das die multimodalen Fähigkeiten von GPT-4o mit fortschrittlichem Denken und Lernen kombiniert. Dies ermöglicht es ihm, mit grafischen Schnittstellen wie ein Mensch zu interagieren und Benutzeranweisungen zu befolgen.
Das Tool automatisiert Aktionen in einem Browser, indem es Bildschirmdaten verarbeitet und Maus- oder Tastatureingaben simuliert. OpenAI plant, das Tool durch Nutzerfeedback zu verfeinern und strebt eine breitere Einführung an, sobald die Tests abgeschlossen sind.
Operator wurde mit einer Erfolgsquote von 87 % auf Websites wie Amazon getestet, obwohl die Leistung bei anderen Tests auf 58,1 % sinkt. Das Unternehmen arbeitet daran, diese Kennzahlen im Laufe der Zeit zu verbessern.
Zu den Sicherheitsmaßnahmen gehören Benutzergenehmigungen für wichtige Aktionen und die Überwachung des Zugangs zu sensiblen Websites. Das Tool blockiert riskante Operationen wie Banküberweisungen und gewährleistet die Privatsphäre, indem es den Nutzern erlaubt, sich von der Datenausbildung abzumelden.
Unternehmen wie DoorDash und Uber arbeiten mit OpenAI zusammen, um den Operator für alltägliche Aufgaben zu optimieren. Das Unternehmen plant, diese Funktionen in ChatGPT zu integrieren und CUA über eine API für Entwickler bereitzustellen.