Openai ha sido un proveedor de soluciones líder en el espacio de Genai. Desde el legendario chatgpt hasta Sora, es una plataforma de referencia para todos los profesionales que trabajan. Con Qwen y Claude ganando popularidad entre los desarrolladores, Operai regresa nuevamente con sus últimas actualizaciones, lo que permite a los desarrolladores crear agentes de IA más confiables y capaces. Los principales destacados de la lista incluyen la API de respuestas y los agentes SDK. En este blog, exploraremos las respuestas API y los agentes SDK, comprenderemos cómo acceder a ellos y aprenderemos cómo usarlas para construir aplicaciones del mundo real.
¿Cuáles son las respuestas API?
La API de respuestas es la API más nueva de OpenAI diseñada para simplificar el proceso de construcción de aplicaciones basadas en IA. Combina la simplicidad de la API de finalización de chat con las potentes capacidades de uso de herramientas de la API de asistentes. Esto significa que los desarrolladores ahora pueden crear agentes que aprovechan múltiples herramientas y manejan tareas complejas y de varios pasos de manera más eficiente. Esta API redujo la dependencia de la ingeniería rápida compleja e integraciones externas.
<figure class="wp-block-embed is-type-rich is-provider-twitter wp-block-embed-twitter“>
Características clave de la API de respuestas
- Herramientas incorporadas como búsqueda web, búsqueda de archivos y uso de la computadora, lo que permite a los agentes interactuar con datos del mundo real.
- Diseño unificado que simplifica el polimorfismo y mejora la usabilidad.
- Mejor observabilidad, ayudar a los desarrolladores a rastrear el comportamiento del agente y optimizar los flujos de trabajo.
- No hay costos adicionales, ya que se cobra en función del uso de tokens en el precio estándar de OpenAI.
Con estas herramientas, las respuestas API cambian el juego hacia la construcción de agentes de IA. La API de infactuar, de nuevo en adelante, admitirá todos los modelos nuevos y futuros de Openai. Veamos cómo podemos usarlo para crear aplicaciones.
¿Cómo usar la API de respuestas?
Para probar respuestas API:
- Instale OpenAI (si no está instalado) y use OpenAI.
- Asegúrese de tener la última biblioteca Operai (PIP Install OpenAI -—Upgrade).
- Importar OpenAI y configurar el cliente.
Una vez configurado, puede solicitar la API de respuestas. Si bien las llamadas de API básicas son comunes, sus capacidades incorporadas lo hacen poderoso. Exploremos tres características clave:
- Búsqueda de archivos: Recuperar ideas de los documentos.
- Búsqueda web: Obtenga información en tiempo real, citada.
- Uso de la computadora: Automatizar las interacciones del sistema.
¡Ahora, veamos en acción!
1. Búsqueda de archivos
Permite que los modelos recuperen información en una base de conocimiento de archivos anteriormente cargados a través de la búsqueda semántica y de palabras clave. Actualmente no admite archivos CSV, puede verificar la lista de tipos de archivos compatibles aquí.
Nota: Antes de usar la búsqueda de archivos, asegúrese de almacenar sus archivos en una base de datos vectorial
Tarea: nombres de personas con dominio como ciencia de datos. (Usé lo siguiente Archivo.)
Código:
response = client.responses.create(
model="gpt-4o-mini",
input="Names of people with domain as Data Science",
tools=({
"type": "file_search",
"vector_store_ids": (vector_store_id),
"filters": {
"type": "eq",
"key": "Domain",
"value": "Data Science"
}
})
)
print(response.output_text)
Producción:
The person with the domain of Data Science is Alice Johnson (0).
(0) names_and_domains.pdf
2. Búsqueda web
Esta característica permite a los modelos buscar en la Web la información más reciente antes de generar una respuesta, asegurando que los datos permanezcan actualizados. El modelo puede optar por buscar en la web o no en función del contenido del indicador de entrada.
Tarea: ¿Cuáles son los mejores cafés de Vijay Nagar?
Código:
response = client.responses.create(
model="gpt-4o",
tools=({
"type": "web_search_preview",
"user_location": {
"type": "approximate",
"country": "IN",
"city": "Indore",
"region": "Madhya Pradesh",
}
}),
input="What are the best cafe in Vijay nagar?",
)
print(response.output_text)
Producción:

3. Uso de computadora
Es una aplicación práctica del modelo de agente de uso de la computadora (CUA), que combina las capacidades de visión de GPT-4O con un razonamiento avanzado para simular las interfaces de computadora de control y realizar tareas.
Tarea: consulte el último blog en el sitio web de Analytics Vidhya.
Código:
response = client.responses.create(
model="computer-use-preview",
tools=({
"type": "computer_use_preview",
"display_width": 1024,
"display_height": 768,
"environment": "browser" # other possible values: "mac", "windows", "ubuntu"
}),
input=(
{
"role": "user",
"content": "Check the latest blog on Analytics Vidhya website."
}
),
truncation="auto"
)
print(response.output)
Producción:
ResponseComputerToolCall(id='cu_67d147af346c8192b78719dd0e22856964fbb87c6a42e96',
action=ActionScreenshot(type="screenshot"),
call_id='call_a0w16G1BNEk09aYIV25vdkxY', pending_safety_checks=(),
status="completed", type="computer_call")
¿En qué se diferencia la API de las respuestas de la API de finalización?
Ahora que hemos visto cómo funciona la API de las respuestas, veamos cuán diferente es de la API de finalización preexistente.
Respuestas API vs Finalización API: Ejecución
API | Respuestas API | API de finalización |
Código |
from openai import OpenAI client = OpenAI() response = client.responses.create( model="gpt-4o", inputs=( { "role": "user", "content": "Write a one-sentence bedtime story about a unicorn." } ) ) print(response.output_text) |
from openai import OpenAI client = OpenAI() completion = client.chat.completions.create( model="gpt-4o", messages=( { "role": "user", "content": "Write a one-sentence bedtime story about a unicorn." } ) ) print(completion.choices(0).message.content) |
Producción |
![]() |
![]() |
Respuestas API vs Finalización API: Características
Aquí hay un desglose simplificado de las diversas características de la API y respuestas de Complerions de chat:
Capacidades | Respuestas API | API de finalización de chat |
Generación de texto | ||
Audio | Muy pronto | |
Visión | ||
Búsqueda web | ||
Búsqueda de archivos | ||
Uso de la computadora | ||
Intérprete de código | Muy pronto | |
Manejo de la respuesta | Devuelve una sola salida estructurada | Devuelve la matriz de opciones |
Estado de conversación | Anterior_Response_id para continuidad | Debe ser manejado manualmente |
Comportamiento de almacenamiento | Almacenado por defecto (almacenar: falso para deshabilitar) | Almacenado por defecto |
Hoja de ruta: ¿Qué continuará, qué se desaprobará?
Con las respuestas API en vivo, la pregunta candente ahora es, ¿afectaría las completaciones de chat existentes y la API asistente? Sí, lo haría. Veamos cómo:
- API de finalización de chat: Operai continuará actualizándolo con nuevos modelos, pero solo cuando las capacidades no requieren herramientas incorporadas.
- Herramientas de búsqueda de archivos y búsqueda de archivos: Estos se volverán más refinados y poderosos en la API de respuestas.
- API de asistentes: La API de respuestas incorpora sus mejores características al tiempo que mejora el rendimiento. Operai ha anunciado que la paridad completa se realizará pronto, y la API de los asistentes estará en desuso a mediados de 2026.
Presentando los agentes SDK
Construir agentes de IA no se trata solo de tener una API poderosa, sino que requiere una orquestación eficiente. Aquí es donde entra en juego los agentes de OpenAI SDK. El SDK de Agentes es un conjunto de herramientas de código abierto que simplifica los flujos de trabajo del agente. Este marco de construcción de agentes se integra a la perfección con la API de respuestas y la API de finalización de chat. Además, también es compatible con modelos de varios proveedores, siempre que ofrezcan un punto final API diseñado como las finalizaciones de chat.
Algunas de las características clave de los agentes SDK son:
- Permite a los desarrolladores configurar agentes de IA con herramientas incorporadas.
- Habilita la orquestación de múltiples agentes, lo que permite la coordinación perfecta de diferentes agentes según sea necesario.
- Nos permite rastrear la conversación y el flujo de información entre nuestros agentes.
- Permite una forma más fácil de aplicar barandillas para la seguridad y el cumplimiento.
- Asegura que los desarrolladores puedan monitorear y optimizar el rendimiento del agente con herramientas de observabilidad incorporadas.
El agente SDK no es una “nueva incorporación” a las joyas de OpenAi. Es una versión mejorada de “Swarm”, el SDK experimental que Operai había lanzado el año pasado. Si bien “Swarm” se acaba de publicar con fines educativos, se hizo popular entre los desarrolladores y también fue adoptado por varias empresas. Para atender a más empresas y ayudarlos a construir agentes de grado de producción sin problemas, los agentes SDK han sido lanzados. Ahora que sabemos lo que los agentes SDK tienen para ofrecer, veamos cómo podemos usar este marco para construir nuestro sistema de agente.
Lea también: las 10 principales extensiones de codificación de IA generativa en VS Code
Construir un sistema multi-agéntico utilizando el agente SDK
Construiremos un sistema de múltiples agentes que ayude a los usuarios con las recomendaciones de automóviles y la estimación de los precios de reventa al aprovechar los agentes alimentados por LLM y las herramientas de búsqueda web para proporcionar información precisa y actualizada.
<h3 class="wp-block-heading" id="h-step-1-building-a-simple-ai-agent”>Paso 1: Construir un agente de IA simple
Comenzamos creando un agente de asesores de automóviles que ayude a los usuarios a elegir un tipo de automóvil adecuado en función de sus necesidades.
Código:
car_advisor = Agent(
name="Car advisor",
instructions= "You are an expert in advising suitable car type like sedan, hatchback etc to people based on their requirements.",
model="gpt-4o",
)
prompt = "I am looking for a car that I enjoy driving and comforatbly take 4 people. I plane to travel to hills. What type of car should I buy?"
async def main():
result = await Runner.run(car_advisor, prompt)
print(result.final_output)
# Run the function in Jupyter
await main()
Producción:

Paso 2: Construya el sistema de múltiples agentes
Con el agente básico en su lugar, ahora creamos un sistema de múltiples agentes que incorpora diferentes agentes de IA especializados en sus respectivos dominios. Así es como funciona:
Agentes en el sistema de múltiples agentes
- Agente de estimación de la venta de automóviles: proporciona una estimación de precio de reventa basada en los detalles del automóvil.
- Agente del asesor del modelo de automóviles: sugiere modelos de automóviles adecuados basados en el presupuesto y la ubicación.
- Agente de triaje: dirige la consulta al agente apropiado.
Proporcionaremos dos indicaciones diferentes a los agentes y observaremos sus salidas.
Código:
car_sell_estimate = Agent(
name="Car sell estimate",
instructions= "You are an expert in suggesting a suitable price of reselling a car based on its make, model, year of purchase, and condition.",
handoff_description= "Car reselling price estimate expert",
model="gpt-4o",
tools=(WebSearchTool())
)
car_model_advisor = Agent(
name="Car model advisor",
instructions= "You are an expert in advising suitable car model to people based on their budget and location.",
handoff_description= "Car model recommendation expert",
model="gpt-4o",
tools=(WebSearchTool())
)
triage_agent = Agent(
name = "Triage Agent",
instructions="You determine the appropriate agent for the task.",
model = "gpt-4o",
handoffs=(car_sell_estimate, car_model_advisor)
)
Prompt 1:
prompt = "I want to sell my Ecosport car in New Delhi. It is 3 years old and in good condition. 50000Km. What price should I expect?"
async def main():
result = await Runner.run(triage_agent, prompt)
print(result.final_output)
# Run the function in Jupyter
await main()
Salida 1:

Aviso 2:
prompt = "I want to buy a high acceleration car, comfortable for 4 people for 20 lakhs in New Delhi. Which car should I buy?"
async def main():
result = await Runner.run(triage_agent, prompt)
print(result.final_output)
# Run the function in Jupyter
await main()
Salida 2:

¡Recibimos las opciones de auto según nuestros requisitos! La implementación fue simple y rápida. Puede usar este marco de agente para construir agentes para el apoyo de viajes, planificación financiera, asistencia médica, compras personalizadas, investigación automatizada y mucho más.
SDK del Agente: ¿Un nuevo marco de agente en la ciudad?
Los agentes de OpenAI SDK representan su impulso estratégico para proporcionar un marco dedicado para el desarrollo de agentes de IA. El marco incluye características similares a la tripulación a través de su agente de triaje, imitando las características de la tripulación de ai. Del mismo modo, sus mecanismos de transferencia se parecen mucho a los del autógeno, lo que permite una delegación eficiente de tareas entre múltiples agentes.
Además, la fuerza de Langchain en la orquestación de agentes modulares se refleja en la forma en que el SDK de los agentes proporciona flujos de trabajo estructurados, asegurando una ejecución suave y adaptabilidad. Si bien los agentes SDK no ofrecen nada más de lo que los marcos existentes ya hacen, pronto les dará una dura competencia.
Lea también: Claude 3.7 Sonnet: ¿El mejor modelo de codificación hasta ahora?
¿Por qué los desarrolladores necesitan respuestas API y agentes SDK?
Respuestas API y agentes SDK proporcionan a los desarrolladores las herramientas y la plataforma para crear aplicaciones impulsadas por la IA. Al reducir la dependencia de la ingeniería rápida manual y la lógica personalizada extensa, estas herramientas permiten a los desarrolladores centrarse en crear flujos de trabajo inteligentes con una fricción mínima.
- Integración fácil: Los desarrolladores ya no necesitan hacer malabarismos con múltiples API para diferentes herramientas; La API de respuestas consolida la búsqueda web, la búsqueda de archivos y el uso de la computadora en una sola interfaz.
- Mejor observabilidad: Con herramientas incorporadas de monitoreo y depuración, los desarrolladores pueden optimizar el rendimiento del agente más fácilmente.
- Escalabilidad: Los agentes SDK proporcionan un enfoque estructurado para manejar flujos de trabajo de múltiples agentes, lo que permite una automatización más robusta.
- Ciclos de desarrollo mejorados: Al eliminar la necesidad de una amplia iteración rápida e integración de herramientas externas, los desarrolladores pueden prototipos e implementar aplicaciones basadas en agentes a un ritmo mucho más rápido.
Conclusión
La introducción de las respuestas de OpenAI API y Agentes SDK es un cambio de juego para la automatización impulsada por la IA. Al aprovechar estas herramientas, creamos con éxito un sistema de múltiples agentes muy rápidamente con solo unas pocas líneas de código. Esta implementación se puede ampliar aún más para incluir herramientas adicionales, integraciones y capacidades de agentes, allanando el camino para aplicaciones de IA más inteligentes y autónomas en diversas industrias.
Seguramente estas herramientas ayudarán a los desarrolladores y empresas a reducir la complejidad del desarrollo, y crear soluciones de automatización más inteligentes y escalables. Ya sea para atención al cliente, investigación, automatización de negocios o aplicaciones de IA específicas de la industria, las respuestas API y los agentes SDK ofrecen un marco poderoso para construir sistemas con facilidad con facilidad con facilidad.
Preguntas frecuentes
R. La API de respuestas es el último marco de IA de OpenAI que simplifica el desarrollo de agentes mediante la integración de herramientas incorporadas como búsqueda web, búsqueda de archivos y uso de computadora.
R. A diferencia de la API de finalización, la API de respuestas admite integración múltiple, salidas estructuradas y gestión de estado de conversación incorporada.
R. El SDK de los Agentes es un marco de código abierto que permite a los desarrolladores construir y orquestar sistemas de agentes múltiples con automatización con IA.
A. Permite la coordinación de agentes sin problemas, la observabilidad mejorada, las barandillas incorporadas y el mejor seguimiento de rendimiento.
¡A. Sí! El SDK de los agentes se integra con la API de respuestas para crear potentes aplicaciones impulsadas por la IA.
R. Sí, puede funcionar con modelos de terceros que admiten integraciones de estilo API de finalización de chat.
A. industrias como automotriz, finanzas, atención médica, atención al cliente e investigación pueden usar agentes impulsados por la IA para optimizar las operaciones y la toma de decisiones.
Inicie sesión para continuar leyendo y disfrutando de contenido curado por expertos.
<script async src="//platform.twitter.com/widgets.js” charset=”utf-8″>