OpenAI startet Echtzeit-API für Sprachinteraktion

Am 2. Oktober gab OpenAI die öffentliche Testphase seiner Echtzeit-API bekannt, die für den Aufbau von KI-Anwendungen entwickelt wurde, die Sprach-zu-Sprach-Interaktionen mit GPT-4o ermöglichen. Diese neue Funktion ermöglicht es zahlenden Entwicklern, interaktive multimodale Erlebnisse mit geringer Latenz in ihren Anwendungen zu schaffen.

OpenAI gab auch Partnerschaften mit drei Sprach-API-Partnern bekannt: LiveKit, Agora und Twilio. Agora, das sich auf den US-amerikanischen und internationalen Markt konzentriert, hat ein SDK für konversationelle KI veröffentlicht, das die neue Echtzeit-API von OpenAI integriert und natürliche Sprachinteraktionen mit KI ermöglicht.

Dieser Ansatz verarbeitet die Stimme direkt, anstatt sie in Text umzuwandeln, was realistische Gespräche ermöglicht und der KI hilft, menschliche Emotionen zu verstehen. Die Einführung der Echtzeit-API stellt einen bedeutenden Fortschritt für OpenAI im Bereich der KI-Anwendungen dar, indem sie die Interaktionsverzögerungen reduziert und die emotionale Ausdruckskraft in Gesprächen verbessert.

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?

Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.