En el reciente evento re:Invent 2024, amazon lanzó sus modelos básicos Nova más avanzados, creados para mejorar la inteligencia artificial y la creación de contenido. En este artículo, analizaré la arquitectura de Nova, destacaré sus poderosas capacidades y luego la pondré a prueba para compartir mi experiencia práctica con esta tecnología innovadora.
<h2 class="wp-block-heading" id="h-what-are-amazon-nova-foundational-models”>¿Qué son los modelos fundamentales de amazon Nova?
amazon Nova es la próxima evolución en modelos básicos, que ofrece inteligencia de vanguardia combinada con una relación precio-rendimiento incomparable. Disponibles exclusivamente a través de amazon Bedrock, estos modelos permiten una amplia gama de aplicaciones.
Desde procesar documentos con análisis de imágenes y texto hasta escalar la creación de contenido de marketing o crear asistentes de inteligencia artificial que puedan interpretar y responder a datos visuales, amazon Nova brinda la inteligencia y la flexibilidad para satisfacer sus necesidades. La suite incluye dos categorías de modelos especializados: comprensión y generación de contenido creativo, que atienden diversos casos de uso con precisión e innovación.
Tipos de modelos de AWS Nova
Comprensión de modelos: texto e inteligencia visual
amazon Nova Micro, Nova Lite y Nova Pro son modelos de comprensión avanzada diseñados para procesar entradas de texto, imágenes y video, entregando salidas basadas en texto. Estos modelos ofrecen una gama versátil de capacidades, equilibrando precisión, velocidad y costo para satisfacer diversas necesidades operativas. Las características clave incluyen:
- Inferencia eficiente y rentable en varios niveles de inteligencia
- Comprensión de vanguardia de texto, imágenes y vídeos
- Soporte de ajuste para entradas de texto, imágenes y vídeo
- Generación aumentada de recuperación multimodal (RAG) de última generación y capacidades agenciales
- Integración perfecta con datos y aplicaciones patentados a través de amazon Bedrock
Veamos cada uno de ellos:
<h4 class="wp-block-heading" id="h-amazon-nova-micro”>amazon Nova Micro
amazon Nova Micro es un modelo de solo texto optimizado para una latencia ultrabaja y un rendimiento rentable. Destaca en una amplia gama de tareas, incluida la comprensión del lenguaje, la traducción, el razonamiento, la finalización de código, la lluvia de ideas y la resolución de problemas matemáticos. Con una velocidad de generación superior a los 200 tokens por segundo, es perfecto para aplicaciones que exigen respuestas rápidas.
Características clave
- Fichas máximas: Admite hasta 128k tokens
- Idiomas: Compatible con más de 200 idiomas
- Sintonia FINA: Totalmente compatible con el ajuste fino con entrada de texto
<h4 class="wp-block-heading" id="h-amazon-nova-lite”>amazon Nova Lite
amazon Nova Lite es un modelo multimodal ultrarrápido y rentable diseñado para manejar entradas de texto, imágenes y vídeo. Su impresionante precisión en diversas tareas, combinada con una velocidad excepcional, lo hace ideal para aplicaciones interactivas y de gran volumen donde la rentabilidad es una prioridad.
Características clave
- Fichas máximas: Admite hasta 300.000 tokens
- Idiomas: Compatible con más de 200 idiomas
- Sintonia FINA: Totalmente compatible con el ajuste fino de entradas de texto, imágenes y vídeo
<h4 class="wp-block-heading" id="h-amazon-nova-pro”>amazon NovaPro
amazon Nova Pro es un modelo multimodal de gran capacidad con la mejor combinación de precisión, velocidad y costo para una amplia gama de tareas. Las capacidades de amazon Nova Pro, junto con su velocidad y rentabilidad líderes en la industria, lo convierten en un modelo atractivo para casi cualquier tarea, incluidos resúmenes de video, preguntas y respuestas, razonamiento matemático, desarrollo de software y agentes de inteligencia artificial que pueden ejecutar flujos de trabajo de varios pasos. Además de la precisión de última generación en los puntos de referencia de inteligencia visual y de texto, amazon Nova Pro se destaca en el seguimiento de instrucciones y flujos de trabajo agentes según lo medido por Comprehensive RAG Benchmark (CRAG), Berkeley Function Calling Leaderboard y Mind2Web.
Características clave
- Fichas máximas: 300k
- Idiomas: Más de 200 idiomas
- Ajuste fino admitido: Sí, con entrada de texto, imagen y vídeo.
<h4 class="wp-block-heading" id="h-amazon-nova-premier”>amazon Nova Premier
Modelo multimodal más capaz para tareas de razonamiento complejas y para utilizar como el mejor maestro para destilar modelos personalizados. amazon Nova Premier todavía está en formación. Su objetivo es la disponibilidad a principios de 2025.
Generación de contenido creativo: dar vida a los conceptos
La suite amazon Nova incluye dos modelos de vanguardia para crear contenido multimodal realista, diseñado para una amplia gama de aplicaciones como publicidad, marketing y entretenimiento:
<h4 class="wp-block-heading" id="h-nbsp-amazon-nova-canvas”> Lienzo Nova amazon
Un modelo de generación de imágenes de última generación diseñado para producir imágenes de alta calidad con un control preciso sobre el estilo y el contenido. amazon Nova Canvas ofrece funciones avanzadas para flexibilidad creativa y sobresale en puntos de referencia como TIFA (Evaluación de fidelidad de texto a imagen) e ImageReward.
Funcionalidades clave
- Generación de texto a imagen:
- Genera imágenes en resoluciones que van desde 512p hasta 2K de resolución horizontal.
- Admite relaciones de aspecto flexibles (1:4 a 4:1) con un máximo de 4,2 millones de píxeles.
- Permite a los clientes proporcionar imágenes de referencia para guiar el estilo del modelo, la paleta de colores o crear variaciones.
- Edición de imágenes:
- Ofrece capacidades de edición precisas, como pintura interior y exterior, utilizando indicaciones de máscara de lenguaje natural para apuntar a áreas específicas para su modificación.
- Incluye eliminación de fondo para reemplazar o ajustar fondos sin problemas y al mismo tiempo preservar el sujeto.
<h4 class="wp-block-heading" id="h-amazon-nova-reel”>Carrete amazon Nova
Un modelo de generación de vídeo de última generación diseñado para crear contenido de vídeo de calidad profesional. amazon Nova Reel supera a los modelos existentes en evaluaciones humanas de calidad y coherencia del vídeo.
Funcionalidades clave
- Genere videos a partir de indicaciones de texto: Crea vídeos de 6 segundos con una resolución de 720p y 24 fotogramas por segundo.
- Genere videos a partir de imágenes de referencia e indicaciones: Combina imágenes estáticas y entradas de texto para producir un movimiento dinámico y guiado.
- Control de movimiento de la cámara: Proporciona más de 20 efectos de movimiento de la cámara, como “zoom” y “dolly forward”, guiados a través de indicaciones de texto, que ofrecen un control preciso sobre la dinámica visual.
<h2 class="wp-block-heading" id="h-amazon-nova-benchmarks-and-results”>amazon Nova: puntos de referencia y resultados
Los modelos de amazon Nova ofrecen un rendimiento excepcional en pruebas comparativas de texto central y agente, sobresaliendo en MMLU, ARC-C y GSM8K. Probado con modelos líderes como GPT-4 y Claude, Nova establece nuevos estándares en precisión, razonamiento y ejecución de tareas.
Comparativas y resultados del texto sobre capacidades principales
Resultados cuantitativos sobre puntos de referencia de capacidad central, incluidos MMLU, ARC-C, DROP, GPQA, MATH, GSM8K, IFEval y BigBench-Hard (BBH). A menos que se indique lo contrario, los valores de referencia provienen de los informes técnicos y sitios web originales de los modelos Claude, GPT-4, Llama y Gemini. Resultados etiquetados con METRO se midieron de forma independiente, mientras que las puntuaciones IFEval de Claude están marcadas con un asterisco (∗) debido a una metodología de puntuación no especificada.
Comparativas y resultados de texto agente
Resultados de Berkeley Function Calling Leaderboard (BFCL) v3 a partir de la actualización del 17 de noviembre de 2024, que incluye las últimas versiones de modelos disponibles en ese momento. Para Llama 3.2 11B y 90B, los resultados de la tabla de clasificación para Llama 3.1 8B y 70B se utilizan debido al texto compartido LLM.
En la siguiente sección, demostraré cómo utilizar AWS Nova. Si tiene problemas para acceder a AWS Nova, consulte mis instrucciones detalladas en el artículo: ¿Cómo acceder a Nova en AWS?
<h2 class="wp-block-heading" id="h-using-amazon-nova-pro-for-document-analysis”>Uso de amazon Nova Pro para el análisis de documentos
Para demostrar las capacidades del análisis de documentos, descargué este artículo del blog Analytics Vidhya. ¡Construya agentes al estilo atómico! en formato PDF.
Primero, navegué a la sección Acceso al modelo en la <a target="_blank" href="https://console.aws.amazon.com/bedrock” target=”_blank” rel=”noreferrer noopener nofollow”>Consola amazon Bedrock y solicitó acceso a los nuevos modelos de amazon Nova. A continuación, en la sección Patio de juegos, seleccioné la opción Chat/Texto y elegí el modelo amazon Nova Pro. Luego cargué el PDF de la guía de decisiones y pregunté:
Write a summary of this doc in 100 words. Then, build a decision tree.
Producción:
El resultado sigue mis instrucciones y genera un árbol de decisiones estructurado que me permite vislumbrar el documento antes de leerlo.
<h2 class="wp-block-heading" id="h-using-amazon-nova-pro-for-video-analysis”>Uso de amazon Nova Pro para análisis de vídeo
Interfaz Nova Pro
Para demostrar el análisis de video, ingresaré un video en la entrada:
amazon Nova Pro puede analizar videos que se cargan, pregunté:
Whats happening in the video?
Producción:
At the beginning of the video, there are three cats on a ledge. One cat is gray and white, one is brown and white, and one is white. The white cat is on the right side of the ledge. The cats are looking in different directions. There are some plants and trees in the background. As the video progresses, the cats continue to stand on the ledge. The white cat moves to the middle of the ledge. The cats continue to look in different directions. The plants and trees in the background remain the same.
Nueva API profesional
Puedo utilizar un mensaje más detallado para extraer información específica del vídeo, como objetos o texto. Tenga en cuenta que amazon Nova actualmente no procesa el audio de un vídeo.
También puedo usar AWS SDK para Python (Boto3) para invocar el modelo amazon Nova Pro usando la API de amazon Bedrock Converse y analizar el video. Asegúrese de que AWS esté configurado correctamente en su sistema para utilizar la API. Además, verifique que tenga los permisos necesarios para ejecutar las operaciones.
import boto3
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-pro-v1:0"
VIDEO_FILE = "/home/abhishek/Downloads/cats_sample"
bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
with open(VIDEO_FILE, "rb") as f:
video = f.read()
user_message = "Describe this video."
messages = ( { "role": "user", "content": (
{"video": {"format": "mp4", "source": {"bytes": video}}},
{"text": user_message}
) } )
response = bedrock_runtime.converse(
modelId=MODEL_ID,
messages=messages,
inferenceConfig={"temperature": 0.0}
)
response_text = response("output")("message")("content")(0)("text")
print(response_text)
amazon Nova Pro puede analizar vídeos que se cargan con la API (como en el código anterior) o que se almacenan en un depósito de amazon Simple Storage Service (amazon S3).
Producción:
<h2 class="wp-block-heading" id="h-using-amazon-nova-reel-for-video-creation”>Uso de amazon Nova Reel para la creación de vídeos
Ahora, creemos un video usando amazon Nova Reel, comenzando con un mensaje de solo texto y luego proporcionando una imagen de referencia. Dado que generar un vídeo lleva unos minutos, la API de amazon Bedrock introdujo tres nuevas operaciones:
- IniciarAsyncInvoke: inicia la creación de videos.
- ObtenerAsyncInvocar: realiza un seguimiento del estado de la creación.
- ListaAsyncInvocaciones: enumera todas las tareas de vídeo en curso o completadas.
amazon Nova Reel admite acciones de control de la cámara, como hacer zoom o mover la cámara. Este script de Python crea un vídeo a partir de este mensaje de texto:
A colorful flower garden with roses, sunflowers,
tulips, and lavender swaying in the sunlight.
The camera zooms in to capture the
intricate details of each bloom..
Después de la primera invocación, el script comprueba periódicamente el estado hasta que se completa la creación del vídeo. Paso una semilla aleatoria para obtener un resultado diferente cada vez que se ejecuta el código.
import random
import time
import boto3
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-reel-v1:0"
SLEEP_TIME = 30
S3_DESTINATION_BUCKET = ""
video_prompt = "A colorful flower garden with roses, sunflowers, tulips, and lavender swaying in the sunlight. The camera zooms in to capture the intricate details of each bloom."
bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
model_input = {
"taskType": "TEXT_VIDEO",
"textToVideoParams": {"text": video_prompt},
"videoGenerationConfig": {
"durationSeconds": 6,
"fps": 24,
"dimension": "1280x720",
"seed": random.randint(0, 2147483648)
}
}
invocation = bedrock_runtime.start_async_invoke(
modelId=MODEL_ID,
modelInput=model_input,
outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{S3_DESTINATION_BUCKET}"}}
)
invocation_arn = invocation("invocationArn")
s3_prefix = invocation_arn.split("https://www.analyticsvidhya.com/")(-1)
s3_location = f"s3://{S3_DESTINATION_BUCKET}/{s3_prefix}"
print(f"\nS3 URI: {s3_location}")
while True:
response = bedrock_runtime.get_async_invoke(
invocationArn=invocation_arn
)
status = response("status")
print(f"Status: {status}")
if status != "InProgress":
break
time.sleep(SLEEP_TIME)
if status == "Completed":
print(f"\nVideo is ready at {s3_location}/output.mp4")
else:
print(f"\nVideo generation status: {status}")
Producción:
Después de unos minutos, el script se completa e imprime la ubicación de salida de amazon Simple Storage Service (amazon S3). Descargo el video de salida usando la interfaz de línea de comandos de AWS (AWS CLI) o puedo descargarlo manualmente:
aws s3 cp s3://BUCKET/PREFIX/output.mp4 ./output-from-text.mp4
Este es el vídeo resultante. Según lo solicitado, la cámara hace zoom sobre el sujeto.
<h2 class="wp-block-heading" id="h-using-amazon-nova-reel-with-a-reference-image”>Uso de amazon Nova Reel con una imagen de referencia
Para tener un mejor control sobre la creación del video, puedo proporcionar a amazon Nova Reel una imagen de referencia como la siguiente:
La imagen proporcionada debe tener dimensiones en el conjunto (1280×720).
Este script utiliza la imagen de referencia y un mensaje de texto con una acción de cámara (vista de dron y luego una abeja posada en una flor cuando se hace zoom) para crear un video:
import base64
import random
import time
import boto3
S3_DESTINATION_BUCKET = ""
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-reel-v1:0"
SLEEP_TIME = 30
input_image_path = "seascape.png"
video_prompt = "drone view then a bee sitting on a flower when zoomed in"
bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
# Load the input image as a Base64 string.
with open(input_image_path, "rb") as f:
input_image_bytes = f.read()
input_image_base64 = base64.b64encode(input_image_bytes).decode("utf-8")
model_input = {
"taskType": "TEXT_VIDEO",
"textToVideoParams": {
"text": video_prompt,
"images": ({ "format": "png", "source": { "bytes": input_image_base64 } })
},
"videoGenerationConfig": {
"durationSeconds": 6,
"fps": 24,
"dimension": "1280x720",
"seed": random.randint(0, 2147483648)
}
}
invocation = bedrock_runtime.start_async_invoke(
modelId=MODEL_ID,
modelInput=model_input,
outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{S3_DESTINATION_BUCKET}"}}
)
invocation_arn = invocation("invocationArn")
s3_prefix = invocation_arn.split("https://www.analyticsvidhya.com/")(-1)
s3_location = f"s3://{S3_DESTINATION_BUCKET}/{s3_prefix}"
print(f"\nS3 URI: {s3_location}")
while True:
response = bedrock_runtime.get_async_invoke(
invocationArn=invocation_arn
)
status = response("status")
print(f"Status: {status}")
if status != "InProgress":
break
time.sleep(SLEEP_TIME)
if status == "Completed":
print(f"\nVideo is ready at {s3_location}/output.mp4")
else:
print(f"\nVideo generation status: {status}")
Producción:
Nuevamente, descargo el resultado usando la CLI de AWS:
aws s3 cp s3://BUCKET/PREFIX/output.mp4 ./output-from-image.mp4
Este es el vídeo resultante. La cámara parte de la imagen de referencia y avanza.
<h2 class="wp-block-heading" id="h-building-ai-responsibly”>Construyendo IA de manera responsable
Los modelos de amazon Nova están diseñados con un fuerte énfasis en la seguridad y la confianza del cliente durante todo su desarrollo, lo que garantiza la tranquilidad y la flexibilidad necesaria para admitir diversos casos de uso.
Con sólidas funciones de seguridad y capacidades de moderación de contenido, amazon Nova le brinda los controles necesarios para adoptar la IA de manera responsable. Cada imagen y video generado por estos modelos incluye marcas de agua digitales para mayor transparencia.
Para igualar las capacidades avanzadas de los modelos básicos de amazon Nova, existen protecciones integrales. Estas salvaguardas abordan activamente cuestiones críticas como la desinformación, el material de abuso sexual infantil (CSAM) y los riesgos asociados con amenazas químicas, biológicas, radiológicas o nucleares (QBRN).
Nota final
amazon Nova ha demostrado ser una herramienta poderosa en mi experiencia práctica. Desde el análisis de documentos hasta la creación de vídeos de alta calidad, los modelos mostraron una velocidad, precisión y versatilidad impresionantes. El análisis de vídeo, en particular, se destacó, con resultados detallados y esclarecedores que superaron con creces mis expectativas.
¡Ahora me encantaría saber de ti! ¿Has tenido la oportunidad de probar amazon Nova? ¿Qué opinas sobre su rendimiento, características o cualquier tarea específica en la que lo hayas probado? Déjamelo saber en la sección de comentarios a continuación.