OpenAI presenta nuevas funciones de IA de voz para la API de OpenAI

OpenAI ha lanzado nuevas funciones de IA de voz para su plataforma API, ayudando a los desarrolladores a crear aplicaciones que interactúan con los usuarios, transcriben voz y traducen idiomas. El nuevo modelo GPT-Realtime-2 ofrece una simulación de voz realista, permitiendo conversaciones naturales con los usuarios. A diferencia de la versión anterior, este modelo posee capacidades de razonamiento de nivel GPT-5 y está diseñado para procesar solicitudes más complejas. Así lo informa Techcrunch.com informa .
Además, la compañía introdujo la función GPT-Realtime-Translate. Ofrece servicios de traducción en tiempo real durante la conversación y admite más de 70 idiomas de entrada y 13 de salida. Asimismo, la herramienta GPT-Realtime-Whisper ofrece transcripción de voz a texto en vivo, registrando las interacciones al instante.
Los representantes de OpenAI afirman que estos nuevos modelos transforman las interfaces de voz de simples sistemas de preguntas y respuestas en herramientas capaces de realizar tareas complejas: escuchar, analizar y actuar. Se espera que estas tecnologías transformen sectores como el servicio al cliente, la educación, los medios y la creación de contenido.
En cuanto a la seguridad, la empresa ha implementado sistemas de protección especiales para prevenir abusos, fraudes y spam. Si se infringen las reglas de contenido dañino durante una conversación, el sistema termina automáticamente la interacción. Los nuevos modelos de voz están incluidos en la API de OpenAI Realtime, con precios basados en el tiempo de uso o el consumo de tokens.
¡Lee “Zamin” en Telegram!