Operai ha presentado recientemente un conjunto de modelos de audio de próxima generación, mejorando las capacidades de las aplicaciones habilitadas por voz. Estos avances incluyen nuevos modelos de voz a texto (STT) y texto a voz (TTS), ofreciendo a los desarrolladores más herramientas para crear agentes de voz sofisticados. Estos modelos de voz avanzados, lanzados en API, permiten a los desarrolladores de todo el mundo construir agentes de voz flexibles y confiables mucho más fácilmente. En este artículo, exploraremos las características y aplicaciones de los últimos modelos TTS GPT-4O-TRANSCRETE, GPT-4O-MINI-Mini y GPT-4O-Mini. También aprenderemos cómo acceder a los modelos de audio de OpenAI y probarlos nosotros mismos. ¡Así que comencemos!
Nuevos modelos de audio de Openai
Operai ha introducido una nueva generación de modelos de audio diseñados para mejorar las capacidades de reconocimiento de voz y síntesis de voz. Estos modelos ofrecen mejoras en precisión, velocidad y flexibilidad, lo que permite a los desarrolladores construir aplicaciones de voz más potentes impulsadas por la IA. La suite incluye 2 modelos de voz a texto y 1 modelo de texto a voz, que son:
- GPT-4O-Transcribe: El modelo de voz a texto más avanzado de OpenAI, que ofrece precisión de la transcripción líder en la industria. Está diseñado para aplicaciones que requieren transcripciones precisas y confiables, como transcripciones de reuniones y conferencias, registros de llamadas de servicio al cliente y subtitulación de contenido.
- GPT-4O-Mini-Transcribe: Una versión más pequeña, liviana y más eficiente del modelo de transcripción anterior. Está optimizado para aplicaciones de menor latencia, como subtítulos en vivo, comandos de voz y agentes de IA interactivos. Proporciona velocidades de transcripción más rápidas, costos computacionales más bajos y un equilibrio entre precisión y eficiencia.
- GPT-4O-Mini TTS: Este modelo presenta la capacidad de instruir a la IA para hablar en estilos o tonos específicos, haciendo que las voces generadas por la IA suenen más humanas. Los desarrolladores ahora pueden adaptar el tono de voz del agente para que coincidan con diferentes contextos como amigables, profesionales o dramáticos. Funciona bien con los modelos de voz a texto de OpenAi, lo que permite interacciones de voz suaves.
Los modelos de voz a texto vienen con tecnologías avanzadas como la cancelación de ruido. También están equipados con un detector de actividad de voz semántica que puede detectar con precisión cuándo el usuario ha terminado de hablar. Estas innovaciones ayudan a los desarrolladores a manejar un montón de problemas comunes mientras construyen agentes de voz. Junto con estos nuevos modelos, Operai también anunció que sus agentes recientemente lanzados SDK ahora admiten audio, lo que hace que sea aún más fácil para los desarrolladores construir agentes de voz.
Obtenga más información: ¿Cómo usar API de respuestas de OpenAI y agente SDK?
Innovaciones técnicas detrás de los modelos de audio de Openai
Los avances en estos modelos de audio se atribuyen a varias innovaciones técnicas clave:
- Pretraining con auténticos conjuntos de datos de audio: Aprovechar datos de audio extensos y diversos ha enriquecido la capacidad de los modelos para comprender y generar patrones de habla humanos.
- Metodologías de destilación avanzada: Estas técnicas se han empleado para optimizar el rendimiento del modelo, asegurando la eficiencia sin comprometer la calidad.
- Paradigma de aprendizaje de refuerzo: La implementación del aprendizaje de refuerzo ha contribuido a la mayor precisión y adaptabilidad de los modelos en varios escenarios del habla.
Cómo acceder a los modelos de audio de Openai
El último modelo, GPT-4O-Mini TTS está disponible en una nueva plataforma lanzada por Open ai llamada OpenAI.FM. Así es como puede acceder a este modelo:
- Abra el sitio web
Primero, dirígete a www.openai.fm.
- Elija la voz y el ambiente
En la interfaz que se abre, elija su voz y configure el ambiente. Si no puede encontrar el carácter correcto con el ambiente correcto, haga clic en el botón Actualizar para obtener diferentes opciones.
- Tin une la voz
Puede personalizar aún más la voz elegida con un mensaje detallado. Debajo de las opciones de VIBE, puede escribir detalles como acento, tono, ritmo, etc. para obtener la voz exacta que desea.
- Agregue el guión y reproduce
Una vez configurado, simplemente escriba su script en el cuadro de entrada de texto a la derecha y haga clic en el botón 'Reproducir'. Si le gusta lo que escucha, puede descargar el audio o compartirlo externamente. Si no, puede seguir probando más iteraciones hasta que lo haga bien.
La página no requiere registro y puedes jugar con el modelo como quieras. Además, en la esquina superior derecha, incluso hay una palanca que le dará el código para el modelo, ajustado a sus elecciones.
Pruebas prácticas de los modelos de audio de Openai
Ahora que sabemos cómo usar el modelo, ¡lo intentemos! Primero, probemos el sitio web de OpenAI.FM.
1. Uso de GPT-4O-Mini-Transcribe en Operai.fm
Supongamos que deseo construir un agente de soporte de voz de “servicios de emergencia”.
Para este agente, selecciono:
- Voz – Nova
- Onda – Simpático
Use las siguientes instrucciones:
Tono: Tranquilo, seguro y autoritario. Tranquilizador para mantener a la persona que llama a gusto mientras maneja la situación. Profesional pero empático, reflejando una preocupación genuina por el bienestar de la persona que llama.
Piting: Estable, claro y deliberado. No es demasiado rápido para evitar el pánico, pero no demasiado lento para retrasar la respuesta. Ligeras pausas para darle tiempo a la persona que llama para responder y procesar información.
Claridad: Acento claro y neutral con una voz bien enunciada. Evite la jerga o los términos complicados, utilizando un lenguaje simple y fácil de entender.
Empatía: Reconozca el estado emocional de la persona que llama (miedo, pánico, etc.) sin agregarlo.
Ofrezca tranquilidad tranquilidad y apoyo a lo largo de la conversación.
Use el siguiente script:
“Hola, estos son servicios de emergencia. Estoy aquí para ayudarlo. Por favor, mantén la calma y escucha atentamente mientras te guío a través de esta situación”.
“La ayuda está en camino, pero necesito un poco de información para asegurarme de que respondamos de manera rápida y adecuada”.
“Proporcione su ubicación. La dirección exacta o los puntos de referencia cercanos nos ayudarán a alcanzarlo más rápido”.
“Gracias; si alguien está herido, necesito que te quedes con ellos y evite moverlos a menos que sea necesario”.
“Si hay sangrado, aplique presión a la herida para controlarla. Si la persona no respira, lo guiaré a través de la RCP. Por favor, manténgase con ellos y mantén la calma”.
“Si no hay lesiones, encuentre un lugar seguro y quédese allí. Evite el peligro y espere a que lleguen los respondedores de emergencia”.
“Lo estás haciendo muy bien. Mantente en la línea conmigo, y me aseguraré de que la ayuda esté en camino y lo mantenga actualizado hasta que lleguen los respondedores”.

Producción:
¿No fue genial? Los últimos modelos de audio de OpenAI ahora también se pueden acceder a través de la API de OpenAI, lo que permite a los desarrolladores integrarlos en varias aplicaciones.
Ahora probemos eso.
2. Uso de GPT-4O-Audio-Preview a través de API
Accederemos al modelo GPT-4O-Audio-Preview a través de la API de OpenAI y probando 2 tareas: una para texto a voz, y el otro para voz a texto.
Tarea 1: texto a voz
Para esta tarea, le pediré al modelo que me cuente una broma.
Entrada de código:
import base64
from openai import OpenAI
client = OpenAI(api_key = "OPENAI_API_KEY")
completion = client.chat.completions.create(
model="gpt-4o-audio-preview",
modalities=("text", "audio"),
audio={"voice": "alloy", "format": "wav"},
messages=(
{
"role": "user",
"content": "Can you tell me a joke about an ai trying to tell a joke?"
}
)
)
print(completion.choices(0))
wav_bytes = base64.b64decode(completion.choices(0).message.audio.data)
with open("output.wav", "wb") as f:
f.write(wav_bytes)
Respuesta:
Tarea 2: habla a texto
Para nuestra segunda tarea, damos al modelo Este archivo de audio Y vea si puede contarnos sobre la grabación.
Entrada de código:
import base64
import requests
from openai import OpenAI
client = OpenAI(api_key = "OPENAI_API_KEY")
# Fetch the audio file and convert it to a base64 encoded string
url = "https://cdn.openai.com/API/docs/audio/alloy.wav"
response = requests.get(url)
response.raise_for_status()
wav_data = response.content
encoded_string = base64.b64encode(wav_data).decode('utf-8')
completion = client.chat.completions.create(
model="gpt-4o-audio-preview",
modalities=("text", "audio"),
audio={"voice": "alloy", "format": "wav"},
messages=(
{
"role": "user",
"content": (
{
"type": "text",
"text": "What is in this recording?"
},
{
"type": "input_audio",
"input_audio": {
"data": encoded_string,
"format": "wav"
}
}
)
},
)
)
print(completion.choices(0).message)
Respuesta:

Resultados de referencia de los modelos de audio de Openai
Para evaluar el rendimiento de sus últimos modelos de voz a texto, OpenAI realizó pruebas de referencia utilizando la tasa de error de palabras (WER), una métrica estándar en el reconocimiento de voz. WER mide la precisión de la transcripción calculando el porcentaje de palabras incorrectas en comparación con una transcripción de referencia. Un WER más bajo indica un mejor rendimiento con menos errores.

Como muestran los resultados, los nuevos modelos de voz a texto, GPT-4O-Transcribe y GPT-4O-Mini-Transcribe, ofrecen tasas de error de palabras mejoradas y un reconocimiento de lenguaje mejorado en comparación con modelos anteriores como Whisper.
Rendimiento en Benchmark de Fleurs
Uno de los puntos de referencia clave utilizados es Fleurs (evaluación de aprendizaje de pocos disparos de representaciones universales del habla), que es un conjunto de datos de discurso multilingüe que cubre más de 100 idiomas con muestras de audio transcritas manualmente.

Los resultados indican que los nuevos modelos de Openai:
- Lograr un WER más bajo en múltiples idiomas, lo que demuestra una mejor precisión de la transcripción.
- Muestre una cobertura multilingüe más fuerte, haciéndolos más confiables para diversas aplicaciones lingüísticas.
- Outperform Whisper V2 y Whisper V3, los modelos de generación previa de OpenAI, en todos los idiomas evaluados.
Costo de los modelos de audio de Openai

Conclusión
Los últimos modelos de audio de OpenAI marcan un cambio significativo de agentes puramente basados en texto a agentes de voz sofisticados, cerrando la brecha entre la IA y la interacción humana. Estos modelos no solo entienden qué decir: comprenden cómo decirlo, capturando el tono, el ritmo y la emoción con notable precisión. Al ofrecer capacidades de voz a texto y texto a voz, OpenAI permite a los desarrolladores crear experiencias de voz impulsadas por la IA que se sientan más naturales y atractivas.
La disponibilidad de estos modelos a través de API significa que los desarrolladores ahora tienen un mayor control sobre el contenido y la entrega del habla generada por la IA. Además, los agentes de OpenAI SDK facilitan la transformación de agentes tradicionales basados en texto en agentes de voz completamente funcionales, abriendo nuevas posibilidades para el servicio al cliente, las herramientas de accesibilidad y las aplicaciones de comunicación en tiempo real. A medida que Operai continúa refinando su tecnología de voz, estos avances establecen un nuevo estándar para las interacciones con IA.
Preguntas frecuentes
A. OpenAi ha introducido tres nuevos modelos de audio: GPT-4O-TRANSCRIE, GPT-4O-Mini-Transcribe y GPT-4O-Mini TTS. Estos modelos están diseñados para mejorar las capacidades de voz a texto y de texto a voz, lo que permite transcripciones más precisas y un habla generada por la IA que suena natural.
R. En comparación con los modelos Whisper de OpenAI, los nuevos modelos de audio GPT-4O ofrecen una precisión de transcripción mejorada y tasas de error de palabras más bajas. También ofrece soporte multilingüe mejorado y una mejor capacidad de respuesta en tiempo real. Además, el modelo de texto a voz proporciona una modulación de voz más natural, lo que permite a los usuarios ajustar el tono, el estilo y el ritmo para un discurso generado por IA más realista.
R. El nuevo modelo TTS permite a los usuarios generar discurso con estilos personalizables, tonos y ritmo. Mejora la modulación de voz de tipo humano y apoya diversos casos de uso, desde asistentes de voz de IA hasta narración de audiolibros. El modelo también proporciona una mejor expresión emocional y claridad que las iteraciones anteriores.
A. GPT-4O-Transcribe ofrece precisión de la transcripción líder en la industria, lo que lo hace ideal para casos de uso profesional como las transcripciones y los registros de servicio al cliente. GPT-4O-Mini-Transcribe está optimizado para la eficiencia y la velocidad, que atiende a aplicaciones en tiempo real como subtítulos en vivo y agentes interactivos de IA.
A. OpenAI.FM es una plataforma web donde los usuarios pueden probar el modelo de texto a voz de Openai sin registrarse. Los usuarios pueden seleccionar una voz, ajustar el tono, ingresar un script y generar audio al instante. La plataforma también proporciona el código API subyacente para una mayor personalización.
R. Sí, los agentes de OpenAI SDK ahora admiten audio, lo que permite a los desarrolladores convertir agentes basados en texto en agentes de voz interactivos. Esto hace que sea más fácil crear bots de atención al cliente con IA, herramientas de accesibilidad y asistentes de IA personalizados con capacidades de voz avanzadas.
Inicie sesión para continuar leyendo y disfrutando de contenido curado por expertos.