El 2 de octubre, OpenAI anunció la prueba pública de su API en tiempo real diseñada para construir aplicaciones de IA que permitan interacciones de voz a voz utilizando GPT-4o. Esta nueva función permite a los desarrolladores de pago crear experiencias interactivas multimodales de baja latencia dentro de sus aplicaciones.
OpenAI también reveló asociaciones con tres colaboradores de API de voz: LiveKit, Agora y Twilio. Agora, que se centra en el mercado estadounidense e internacional, ha lanzado un SDK de IA conversacional que integra la nueva API en tiempo real de OpenAI, facilitando interacciones de voz naturales con la IA.
Este enfoque procesa la voz directamente en lugar de convertirla a texto, lo que permite conversaciones realistas y permite que la IA comprenda las emociones humanas. El lanzamiento de la API en tiempo real marca un avance significativo para OpenAI en el espacio de aplicaciones de IA, reduciendo las demoras en la interacción y mejorando la expresión emocional en las conversaciones.