Hoy nos complace anunciar la disponibilidad de Llama 3.2 en amazon SageMaker JumpStart y amazon Bedrock. Los modelos Llama 3.2 son una colección de modelos de IA generativa de última generación, previamente entrenados y afinados, que vienen en varios tamaños, en modelos de parámetros 1B y 3B livianos de solo texto, adecuados para dispositivos de borde, hasta pequeños y modelos de parámetros de tamaño mediano 11B y 90B capaces de realizar tareas de razonamiento sofisticadas, incluido el soporte multimodal para imágenes de alta resolución. SageMaker JumpStart es un centro de aprendizaje automático (ML) que brinda acceso a algoritmos, modelos y soluciones de ML para que pueda comenzar rápidamente con ML. amazon Bedrock es un servicio totalmente administrado que ofrece una selección de modelos básicos (FM) de alto rendimiento de empresas líderes en IA, como Meta, a través de una única API, junto con un amplio conjunto de capacidades que necesita para crear aplicaciones generativas de IA con seguridad. privacidad e IA responsable.
En esta publicación, demostramos cómo se pueden utilizar los modelos Llama 3.2 11B y 90B para una variedad de casos de uso basados en la visión. Esta es la primera vez que los modelos Llama de Meta se lanzan con capacidades de visión. Estas nuevas capacidades amplían la usabilidad de los modelos Llama desde sus aplicaciones tradicionales de solo texto. Los casos de uso basados en la visión que analizamos en esta publicación incluyen la respuesta visual a preguntas en documentos, la extracción de información de entidades estructuradas a partir de imágenes y los subtítulos de imágenes.
Descripción general de los modelos Llama 3.2 11B y 90B Vision
La colección Llama 3.2 de modelos de lenguaje grande (LLM) multimodales y multilingües es una colección de modelos generativos previamente entrenados y ajustados por instrucción en una variedad de tamaños. Los modelos 11B y 90B son multimodales: admiten entrada/salida de texto y entrada/salida de texto+imagen.
Llama 3.2 11B y 90B son los primeros modelos Llama que admiten tareas de visión, con una nueva arquitectura de modelo que integra representaciones del codificador de imágenes en el modelo de lenguaje. Los nuevos modelos están diseñados para ser más eficientes para cargas de trabajo de IA, con latencia reducida y rendimiento mejorado, lo que los hace adecuados para una amplia gama de aplicaciones. Todos los modelos Llama 3.2 admiten una longitud de contexto de 128.000, manteniendo la capacidad de token ampliada introducida en Llama 3.1. Además, los modelos ofrecen soporte multilingüe mejorado para ocho idiomas, incluidos inglés, alemán, francés, italiano, portugués, hindi, español y tailandés.
Los modelos Llama 3.2 están disponibles hoy para realizar inferencias en SageMaker JumpStart y amazon Bedrock. Con SageMaker JumpStart, puede acceder a los modelos Llama 3.2 inicialmente en la región de AWS Este de EE. UU. (Ohio) y admitir los tipos de instancias necesarios. Los modelos Llama 3.2 90B y 11B de Meta también están disponibles en amazon Bedrock en la región oeste de EE. UU. (Oregón) y en las regiones este de EE. UU. (Ohio, Virginia del Norte) mediante inferencia entre regiones. Los modelos Llama 3.2 1B y 3B están disponibles en las regiones EE. UU. Oeste (Oregón) y Europa (Frankfurt), y en las regiones EE. UU. Este (Ohio, N. Virginia) y Europa (Irlanda, París) mediante inferencia entre regiones con expansión planificada. disponibilidad regional en el futuro.
Descripción general de la solución
En las siguientes secciones, explicamos cómo configurar los modelos de visión Llama 3.2 en amazon Bedrock y amazon SageMaker JumpStart para el razonamiento basado en la visión. También demostramos casos de uso para la respuesta a preguntas de documentos, la extracción de entidades y la generación de títulos.
Para los ejemplos que se muestran en esta publicación, utilizamos el modelo Llama 3.2 90B a menos que se indique lo contrario. Las imágenes de moda son de la Conjunto de datos de imágenes de productos de moda. Las imágenes de generación de subtítulos son de Conjunto de datos sintéticos de preferencia humana. El diseño interior y las imágenes inmobiliarias son de la Conjunto de datos de diseño de interiores.
Requisitos previos
Se necesitan los siguientes requisitos previos para implementar los pasos descritos en esta publicación:
Para obtener información sobre cómo configurar el acceso al modelo Llama 3.2 para amazon Bedrock, consulte la publicación de lanzamiento. Para obtener detalles sobre la creación de puntos finales de modelo en SageMaker JumpStart, consulte la publicación de lanzamiento.
Configure Llama 3.2 para el razonamiento basado en la visión en amazon Bedrock
Para configurar tareas de razonamiento basadas en visión con modelos Llama 3.2 en amazon Bedrock, utilice el siguiente fragmento de código:
amazon Bedrock apoya la messages
objeto como parte de la API de Converse. Con la API de Converse, no es necesario convertir la imagen a base64 (en comparación con SageMaker JumpStart).
Puedes leer la imagen con el siguiente código:
Utilice el siguiente código para crear un objeto de mensajes:
# Construir el messages
para la entrada del modelo
Invoque la API de amazon Bedrock Converse de la siguiente manera:
Configure Llama 3.2 para razonamiento basado en visión en SageMaker
Puede configurar tareas de razonamiento basadas en visión con modelos de visión Llama 3.2 con un punto final de SageMaker con el siguiente fragmento de código (consulte Llama 3.2 en el blog SageMaker JumpStart para configurar el punto final de inferencia):
La implementación de SageMaker JumpStart también puede adoptar un estilo de API de mensajes messages
objeto como entrada (similar a la API de amazon Bedrock Converse). Primero, la imagen debe leerse en formato base64 antes de enviarla a través del objeto de mensajes.
Lee la imagen con el siguiente código:
Crear un messages
objeto con el siguiente código:
En el código anterior, prompt
es la pregunta que nos hacemos sobre el razonamiento del modelo con la imagen.
Después de crear el messages
objeto, puede enviarlo como carga útil al punto final de SageMaker:
Respuesta a preguntas del documento
En esta sección, presentamos casos de uso de ejemplo para responder preguntas sobre documentos. Nos centramos en dos casos de uso: primero, responder preguntas basadas en diapositivas de resultados financieros que contienen información gráfica compleja y, segundo, resolver problemas matemáticos mirando una imagen.
Diapositivas de resultados financieros Preguntas y respuestas
Los modelos de visión Llama 3.2 pueden razonar y responder preguntas basadas en imágenes con información complicada en la imagen, como diagramas, gráficos y tablas. Usemos el modelo de asistente de analista financiero para analizar diapositivas con diferentes tipos de información financiera para responder nuestras preguntas. Usamos el Diapositivas de conferencias telefónicas sobre resultados financieros del segundo trimestre de 2024 de amazon documento para hacerle a Llama 3.2 algunas preguntas basadas en esta presentación de diapositivas.
Para nuestro primer mensaje, preguntamos “¿Cuál es la tendencia de las ventas en los últimos doce meses?” con la siguiente diapositiva.
Obtenemos la siguiente respuesta:The sales are trending up 12% year over year. The bar graph shows that the sales have increased from $538,046 in Q2 2023 to $604,334 in Q1 2024, and further to $604,334 in Q2 2024. This indicates a steady growth in sales over the last twelve months.
A continuación le preguntamos “¿Puedes ayudarme a entender esta diapositiva? ¿Cuál es la tendencia del flujo de caja libre y operativo en los últimos 12 meses? ¿Cuál es el factor que contribuye significativamente a la tendencia del flujo de caja libre? Usamos la siguiente diapositiva.
Obtenemos la siguiente respuesta:The slide presents a table with two main sections: "Operating Cash Flow" and "Free Cash Flow Less Equipment Finance Leases and Principal Repayments of All Other Finance Leases and Financing Obligations." The table is divided into five columns, each representing a quarter from Q2 2023 to Q2 2024.
**Operating Cash Flow Trend:**
* Q2 2023: $61,841
* Q3 2023: $71,654
* Q4 2023: $84,946
* Q1 2024: $99,147
* Q2 2024: $107,952
The operating cash flow has consistently increased over the five quarters, indicating a positive trend.
**Free Cash Flow Trend:**
* Q2 2023: $6,734
* Q3 2023: $20,241
* Q4 2023: $35,549
* Q1 2024: $48,778
* Q2 2024: $51,448
The free cash flow has also shown an upward trend, with a significant increase from Q2 2023 to Q2 2024.
**Significant Contributor to Free Cash Flow Trend:**
The significant contributor to the free cash flow trend is the "Principal repayments of all other finance leases" and "Principal repayments of financing obligations." These two items have consistently increased over the five quarters, contributing to the overall growth in free cash flow.
In summary, both operating cash flow and free cash flow have demonstrated a positive trend over the last 12-month period. The significant contributor to the free cash flow trend is the increase in principal repayments of all other finance leases and financing obligations.
Respuesta visual a preguntas de matemáticas.
Otro problema interesante para la respuesta visual a preguntas es la respuesta a acertijos visuales de lógica y matemáticas. Los modelos de visión Llama 3.2 son muy capaces de resolver y responder preguntas de matemáticas visuales. Aquí mostramos algunos ejemplos.
Para nuestro primer mensaje, usamos la siguiente imagen y preguntamos “¿En cuántos círculos está el canguro?”
Obtenemos la siguiente respuesta:The kangaroo is inside 3 circles.
A continuación, utilizamos la siguiente imagen y preguntamos “¿Cuál de estas cifras difiere de las otras cuatro?”
Obtenemos la siguiente respuesta:The figure labeled E is the only one with a different shape for the skirt. The other figures have triangular skirts, while figure E has a rectangular skirt.
Extracción de entidades
Extraer información sobre productos es un caso de uso importante para la industria minorista. En las plataformas que admiten vendedores externos, las imágenes de productos son los recursos más disponibles para recopilar información sobre el producto. Por lo tanto, extraer con precisión información relevante sobre el producto es esencial para el éxito del mismo. En esta sección, mostramos un par de ejemplos de imágenes de productos de ropa y cómo puede usar Llama 3.2 para extraer información relevante sobre el producto que puede respaldarlo en una aplicación de comercio electrónico.
Primero usamos las siguientes imágenes y el mensaje “¿Puedes extraer toda la información sobre el producto en la imagen? Piense con mucho cuidado paso a paso para construir un archivo json para organizar toda la información sobre el producto. Considere formular el archivo json para que la información extraída pueda almacenarse en una base de datos para su uso posterior en una aplicación de comercio electrónico minorista. Devuelve el archivo json como salida”.
Para el vestido rosa, obtenemos el siguiente resultado:Based on the image, here is a JSON representation of the product information:
```
{
"product_id": "unknown",
"name": "Pink Floral Dress",
"description": "A sleeveless dress with a pink floral pattern and a pink trim at the bottom",
"category": "Dresses",
"sub_category": "Casual Dresses",
"color": "Pink",
"size": "unknown",
"price": "unknown",
"brand": "unknown",
"material": "unknown",
"features": (
"Sleeveless",
"Floral pattern",
"Pink trim at the bottom"
),
"images": (
{
"url": "image_url",
"alt_text": "Pink Floral Dress"
}
)
}
```
Please note that some information such as product_id, size, price, brand, and material are unknown as they are not visible in the image. Also, the image_url is a placeholder and should be replaced with the actual URL of the image.
Para la gorra azul, obtenemos el siguiente resultado:
Based on the image, here is a JSON representation of the product information:
```json
{
"product_id": "NIKE-CAP-001",
"name": "Nike Cap",
"description": "A blue baseball cap with a white Nike logo",
"category": "Accessories",
"subcategory": "Hats",
"brand": "Nike",
"color": "Blue",
"size": "One Size",
"material": "Cotton",
"price": 29.99,
"image_url": "https://example.com/nike-cap.jpg",
"features": (
"Adjustable strap in the back",
"Embroidered Nike logo on the front"
)
}
```
This JSON object includes the following fields:
* `product_id`: a unique identifier for the product
* `name`: the name of the product
* `description`: a brief description of the product
* `category` and `subcategory`: the categories and subcategories that the product belongs to
* `brand`: the brand of the product
* `color`: the color of the product
* `size`: the size of the product
* `material`: the material that the product is made of
* `price`: the price of the product
* `image_url`: the URL of the product image
* `features`: an array of features that describe the product
Note that this is just one possible way to represent the product information in JSON. Depending on the specific requirements of your application, you may need to add or remove fields, or use different data types for certain fields.
Generación de subtítulos
Otra capacidad importante y útil de los modelos de visión es generar títulos automáticamente para las imágenes. En esta sección, mostramos la generación de subtítulos con un título simple, un título más creativo y divertido y un título de estilo marketing.
Subtítulos simples
Para subtítulos simples, usamos la siguiente imagen y el mensaje “Por favor proporcione un título para esta imagen. Sea creativo pero respetuoso”.
Obtenemos la siguiente respuesta:
The image shows a young woman sitting in a dentist's chair, with a female dentist examining her teeth. The woman is wearing a bib to protect her clothes from any water or other substances that may be used during the examination. The dentist is wearing a white lab coat and a mask, and she is holding a dental mirror and a probe. The background of the image is a dental office, with various dental tools and equipment visible.
The overall atmosphere of the image is one of professionalism and care. The dentist appears to be focused on her work, and the woman seems to be relaxed and comfortable. The image suggests that the woman is receiving a routine dental checkup or cleaning, and that the dentist is taking good care of her.
Subtítulos creativos
Para nuestro segundo ejemplo, queremos un tono más creativo y divertido. Usamos la misma imagen y el mensaje. “Por favor proporcione un título breve para esta imagen. Sea creativo y divertido pero respetuoso. Esto debe compartirse en una aplicación de red social”.
Obtenemos la siguiente respuesta:
"Brace yourself for a sparkling smile, because this dentist is about to make your teeth shine brighter than a disco ball!"
Generación de listado
Para generar un listado de bienes raíces, utilizamos la siguiente imagen y el mensaje “Eres un experto en marketing inmobiliario. Cree una descripción del listado con la imagen adjunta de una propiedad”.
Obtenemos el siguiente resultado:
**Welcome to Your Dream Home**
This stunning property boasts an open-plan living area that seamlessly blends style and functionality. The spacious living room, dining area, and kitchen are perfect for entertaining, with plenty of natural light pouring in through the large windows. The sleek, modern kitchen features high-end appliances and ample counter space, making meal prep a breeze.
The living room is a cozy retreat, with a comfortable sofa and chairs arranged around a stylish coffee table. The adjacent dining area is perfect for hosting dinner parties, with a large table that seats eight.
But the real showstopper is the stunning view of the water, which can be enjoyed from the comfort of your own home. Imagine sipping your morning coffee or enjoying a glass of wine in the evening while taking in the breathtaking scenery.
This property is the perfect blend of form and function, offering the ultimate in comfort and style. Don't miss out on this incredible opportunity to make it your own.
**Key Features:**
* Open-plan living area with kitchen, dining area, and living room
* Modern kitchen with high-end appliances and ample counter space
* Comfortable living room with sofa and chairs
* Large dining table that seats eight
* Stunning view of the water
* Perfect for entertaining
**Don't miss out on this incredible opportunity. Contact us today to schedule a viewing.**
Conclusión
En esta publicación, demostramos las diversas capacidades de visión de los modelos Llama 3.2 11B y 90B de Meta. Los modelos de visión de Llama 3.2 le permiten resolver múltiples casos de uso, incluida la comprensión de documentos, la resolución de acertijos matemáticos y lógicos, la extracción de entidades y la generación de subtítulos. Estas capacidades pueden impulsar la productividad en varios casos de uso empresarial, incluido el comercio electrónico (minorista), el marketing y mucho más.
Para obtener más información sobre las características y capacidades de Llama 3.2 en amazon Bedrock, consulte la publicación de lanzamiento, la página del producto y la documentación. Para obtener más información sobre el uso de Llama 3.2 en SageMaker JumpStart, consulte la publicación de lanzamiento y, para obtener más información sobre el uso de modelos de base en SageMaker JumpStart, consulte la página del producto y la documentación.
¡Estamos ansiosos por ver qué construye con los modelos Llama 3.2 en AWS!
Acerca de los autores
Dr. Natarajan Chennimalai Kumar es arquitecto principal de soluciones en el equipo de proveedores de modelos externos de AWS y trabaja en estrecha colaboración con el equipo de ingeniería del socio de Llama en Meta para permitir que los clientes de AWS utilicen modelos de Llama. Tiene un doctorado de la Universidad de Illinois en Urbana-Champaign. Tiene su sede en el Área de la Bahía de California. Fuera del trabajo, le gusta ver programas con sus hijos, jugar tenis y viajar con su familia.
Sebastian Bustillo es arquitecto de soluciones en AWS. Se centra en las tecnologías de IA/ML con una profunda pasión por la IA generativa y los aceleradores informáticos. En AWS, ayuda a los clientes a desbloquear valor empresarial a través de la IA generativa. Cuando no está en el trabajo, le gusta preparar una taza perfecta de café especial y explorar el aire libre con su esposa.
Marco Puño es un arquitecto sénior de soluciones especializado centrado en la estrategia de IA generativa, soluciones de IA aplicadas y en la realización de investigaciones para ayudar a los clientes a hiperescalar en AWS. Como miembro del equipo de arquitectura de soluciones de ciencias aplicadas de proveedores de modelos externos en AWS, es líder global de la estrategia técnica y la asociación Meta-AWS. Marco, que reside en Seattle, WA, disfruta escribir, leer, hacer ejercicio y crear aplicaciones en su tiempo libre.
Armando Diaz es arquitecto de soluciones en AWS. Se centra en IA generativa, IA/ML y análisis de datos. En AWS, Armando ayuda a los clientes a integrar capacidades de IA generativa de vanguardia en sus sistemas, fomentando la innovación y la ventaja competitiva. Cuando no está en el trabajo, le gusta pasar tiempo con su esposa y su familia, hacer senderismo y viajar por el mundo.