Según el anuncio del 7 de mayo, hora local, los nuevos modelos integrados en la API (interfaz de programación de aplicaciones) de OpenAI permiten a los desarrolladores de aplicaciones construir conversaciones, traducir y grabar conversaciones directamente mientras el usuario está hablando. Esto se considera un paso importante en la carrera por desarrollar la IA de voz en tiempo real.
El nuevo conjunto de modelos incluye tres productos principales: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper.
Entre ellos, GPT-Realtime-2 está integrado con la capacidad de razonamiento a nivel GPT-5, lo que ayuda a la IA a procesar solicitudes más complejas y mantener conversaciones más naturales con los usuarios.
OpenAI dice que este modelo puede comprender el contexto de la conversación, adaptarse cuando se requiere un cambio y responder adecuadamente a cada situación.
El segundo modelo es GPT-Realtime-Translate, centrado en la traducción de voz directa. Esta tecnología admite más de 70 idiomas de entrada y unos 13 idiomas de salida.
Un punto notable es que el sistema puede traducir casi simultáneamente con la palabra original, manteniendo al mismo tiempo la velocidad y el ritmo naturales del hablante.
Mientras tanto, GPT-Realtime-Whisper es un nuevo modelo de conversión de voz a texto en línea, capaz de grabar la voz en vivo mientras se lleva a cabo la conversación.
OpenAI cree que la IA de voz es actualmente una de las formas más comunes de interacción entre los humanos y el software.
Sin embargo, la construcción de productos de voz reales sigue siendo muy compleja porque la IA no solo necesita escuchar y comprender, sino también rastrear el contexto, utilizar herramientas adecuadas y responder en el momento adecuado.
Los nuevos modelos llevarán el sonido en tiempo real más allá de la simple forma de preguntas y respuestas para convertirse en una interfaz de voz que puede escuchar, razonar, traducir, tomar notas y actuar mientras se desarrolla la conversación", dijo OpenAI en su blog oficial.
La empresa espera que la nueva tecnología apoye fuertemente a las empresas que desean expandir el servicio de atención al cliente automatizado.
Además, la IA de voz en tiempo real también se puede aplicar en muchos campos como la educación, los medios, la organización de eventos y las plataformas de creación de contenido.
En países multilingües como la India, la tecnología de traducción directa se considera particularmente útil. Los nuevos modelos permiten que varias personas utilicen diferentes idiomas en la misma conversación, escuchando traducciones en tiempo real y rastreando registros de texto en vivo.
Prateek Sachan, cofundador y director de tecnología de BolnaAI (una empresa de tecnología especializada en el desarrollo de plataformas de IA de voz para empresas en la India), dijo que GPT-Realtime-Translate tiene una tasa de errores un 12,5% menor que muchos otros modelos que la empresa ha probado en idiomas como hindi, tamil y telugu.
Según Sachan, la nueva tecnología de OpenAI está estableciendo un nuevo estándar para la IA de voz multilingüística, especialmente en mercados con sistemas de fonología y acentos locales complejos.