Los modelos Llama 3.2 de Meta ya están disponibles en Amazon SageMaker JumpStart

Hoy nos complace anunciar la disponibilidad de los modelos Llama 3.2 en amazon SageMaker JumpStart. Llama 3.2 ofrece visión multimodal y modelos livianos que representan el último avance de Meta en modelos de lenguaje grande (LLM), brindando capacidades mejoradas y una aplicabilidad más amplia en varios casos de uso. Con un enfoque en la innovación responsable y la seguridad a nivel de sistema, estos nuevos modelos demuestran un rendimiento de vanguardia en una amplia gama de puntos de referencia de la industria e introducen características que lo ayudan a construir una nueva generación de experiencias de IA. SageMaker JumpStart es un centro de aprendizaje automático (ML) que brinda acceso a algoritmos, modelos y soluciones de ML para que pueda comenzar rápidamente con ML.

En esta publicación, mostramos cómo puede descubrir e implementar el modelo Llama 3.2 11B Vision usando SageMaker JumpStart. También compartimos los tipos de instancias admitidos y el contexto para todos los modelos de Llama 3.2 disponibles en SageMaker JumpStart. Aunque no se destacan en este blog, también puede usar los modelos livianos junto con ajustes finos usando SageMaker JumpStart.

Los modelos Llama 3.2 están disponibles en todas las regiones donde SageMaker JumpStart está disponible. Tenga en cuenta que Meta tiene restricciones en el uso de los modelos multimodales si se encuentra en la Unión Europea. Consulte el acuerdo de licencia comunitaria de Meta para obtener más detalles.

Descripción general de Llama 3.2

Llama 3.2 representa el último avance de Meta en LLM. Los modelos Llama 3.2 se ofrecen en varios tamaños, desde modelos multimodales pequeños y medianos. Los modelos Llama 3.2 más grandes vienen en dos tamaños de parámetros (11B y 90B) con una longitud de contexto de 128.000 y son capaces de realizar tareas de razonamiento sofisticadas que incluyen soporte multimodal para imágenes de alta resolución. Los modelos livianos de solo texto vienen en dos tamaños de parámetros (1B y 3B) con una longitud de contexto de 128 000 y son adecuados para dispositivos periféricos. Además, hay un nuevo modelo de parámetros de protección Llama Guard 3 11B Vision, que está diseñado para admitir ai.meta.com/llama/responsible-use-guide/” target=”_blank” rel=”noopener”>innovación responsable y seguridad a nivel del sistema.

Llama 3.2 es el primer modelo Llama que admite tareas de visión, con una nueva arquitectura de modelo que integra representaciones del codificador de imágenes en el modelo de lenguaje. Con un enfoque en la innovación responsable y la seguridad a nivel de sistema, los modelos Llama 3.2 lo ayudan a construir e implementar modelos de IA generativa de vanguardia para impulsar nuevas innovaciones como el razonamiento de imágenes y también son más accesibles para aplicaciones de vanguardia. Los nuevos modelos también están diseñados para ser más eficientes para cargas de trabajo de IA, con latencia reducida y rendimiento mejorado, lo que los hace adecuados para una amplia gama de aplicaciones.

Descripción general de SageMaker JumpStart

SageMaker JumpStart ofrece acceso a una amplia selección de modelos de base (FM) disponibles públicamente. Estos modelos previamente entrenados sirven como poderosos puntos de partida que pueden personalizarse profundamente para abordar casos de uso específicos. Ahora puede utilizar arquitecturas de modelos de última generación, como modelos de lenguaje, modelos de visión por computadora y más, sin tener que crearlos desde cero.

Con SageMaker JumpStart, puede implementar modelos en un entorno seguro. Los modelos se pueden aprovisionar en instancias dedicadas de SageMaker Inference, incluidas instancias impulsadas por AWS Trainium y AWS Inferentia, y están aislados dentro de su nube privada virtual (VPC). Esto refuerza la seguridad y el cumplimiento de los datos, porque los modelos operan bajo sus propios controles de VPC, en lugar de en un entorno público compartido. Después de implementar un FM, puede personalizarlo y ajustarlo aún más utilizando las amplias capacidades de amazon SageMaker, incluida SageMaker Inference para implementar modelos y registros de contenedores para mejorar la observabilidad. Con SageMaker, puede optimizar todo el proceso de implementación del modelo.

Requisitos previos

Para probar los modelos Llama 3.2 en SageMaker JumpStart, necesita los siguientes requisitos previos:

Descubra los modelos Llama 3.2 en SageMaker JumpStart

SageMaker JumpStart proporciona FM a través de dos interfaces principales: SageMaker Studio y SDK de Python de SageMaker. Esto proporciona múltiples opciones para descubrir y utilizar cientos de modelos para su caso de uso específico.

SageMaker Studio es un IDE integral que ofrece una interfaz unificada basada en web para realizar todos los aspectos del ciclo de vida del desarrollo de ML. Desde la preparación de datos hasta la creación, el entrenamiento y la implementación de modelos, SageMaker Studio proporciona herramientas diseñadas específicamente para agilizar todo el proceso. En SageMaker Studio, puede acceder a SageMaker JumpStart para descubrir y explorar el extenso catálogo de FM disponibles para implementar capacidades de inferencia en SageMaker Inference.

En SageMaker Studio, puede acceder a SageMaker JumpStart eligiendo Empezar en el panel de navegación o eligiendo Empezar desde Hogar página.

Alternativamente, puede usar el SDK de SageMaker Python para acceder y usar mediante programación los modelos SageMaker JumpStart. Este enfoque permite una mayor flexibilidad e integración con los flujos de trabajo y canalizaciones de ai/ML existentes. Al proporcionar múltiples puntos de acceso, SageMaker JumpStart lo ayuda a incorporar sin problemas modelos previamente entrenados en sus esfuerzos de desarrollo de IA/ML, independientemente de su interfaz o flujo de trabajo preferido.

Implemente modelos multimodales de Llama 3.2 para inferencia usando SageMaker JumpStart

En la página de inicio de SageMaker JumpStart, puede descubrir todos los modelos públicos previamente entrenados que ofrece SageMaker. Puede elegir la pestaña Proveedor de metamodelos para descubrir todos los metamodelos disponibles en SageMaker.

Si está utilizando SageMaker Classic Studio y no ve los modelos Llama 3.2, actualice su versión de SageMaker Studio apagándolo y reiniciándolo. Para obtener más información sobre las actualizaciones de versiones, consulte Cerrar y actualizar las aplicaciones Studio Classic.

Puede elegir la tarjeta de modelo para ver detalles sobre el modelo, como la licencia, los datos utilizados para entrenar y cómo utilizarlo. También puedes encontrar dos botones, Desplegar y Cuaderno abiertoque le ayudarán a utilizar el modelo.

Cuando elige cualquiera de los botones, una ventana emergente mostrará el Acuerdo de licencia de usuario final (EULA) y la política de uso aceptable que debe aceptar.

Tras la aceptación, puede pasar al siguiente paso para utilizar el modelo.

Implemente el modelo Llama 3.2 11B Vision para inferencia utilizando el SDK de Python

cuando tu eliges Desplegar y acepte los términos, comenzará la implementación del modelo. Alternativamente, puede implementar a través del cuaderno de ejemplo eligiendo Cuaderno abierto. El cuaderno proporciona orientación integral sobre cómo implementar el modelo para inferencia y limpieza de recursos.

Para implementar usando una computadora portátil, comience seleccionando un modelo apropiado, especificado por el model_id. Puede implementar cualquiera de los modelos seleccionados en SageMaker.

Puede implementar un modelo Llama 3.2 11B Vision usando SageMaker JumpStart con el siguiente código SageMaker Python SDK:

from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(model_id = "meta-vlm-llama-3-2-11b-vision")
predictor = model.deploy(accept_eula=accept_eula)

Esto implementa el modelo en SageMaker con configuraciones predeterminadas, incluido el tipo de instancia predeterminado y las configuraciones de VPC predeterminadas. Puede cambiar estas configuraciones especificando valores no predeterminados en JumpStartModelo. Para implementar correctamente el modelo, debe configurar manualmente accept_eula=True como argumento del método de implementación. Una vez implementado, puede ejecutar inferencia contra el punto final implementado a través del predictor de SageMaker:

payload = {
    "messages": (
        {"role": "system", "content": "You are a helpful assistant"},
        {"role": "user", "content": "How are you doing today"},
        {"role": "assistant", "content": "Good, what can i help you with today?"},
        {"role": "user", "content": "Give me 5 steps to become better at tennis?"}
    ),
    "temperature": 0.6,
    "top_p": 0.9,
    "max_tokens": 512,
    "logprobs": False
}
response = predictor.predict(payload)
response_message = response('choices')(0)('message')('content')

Instancias recomendadas y punto de referencia

La siguiente tabla enumera todos los modelos de Llama 3.2 disponibles en SageMaker JumpStart junto con los model_idlos tipos de instancia predeterminados y la cantidad máxima de tokens totales (suma de la cantidad de tokens de entrada y la cantidad de tokens generados) admitidos para cada uno de estos modelos. Para aumentar la longitud del contexto, puede modificar el tipo de instancia predeterminado en la interfaz de usuario de SageMaker JumpStart.

Nombre del modelo	ID del modelo	Tipo de instancia predeterminado	Tipos de instancias admitidas
Llama-3.2-1B	meta-generación de texto-llama-3-2-1b, meta-generación de textoneurona-llama-3-2-1b	ml.g6.xlarge (longitud de contexto 125K), ml.trn1.2xlarge (longitud de contexto de 125 KB)	Todas las instancias g6/g5/p4/p5; ml.inf2.xlarge, ml.inf2.8xlarge, ml.inf2.24xlarge, ml.inf2.48xlarge, ml.trn1.2xlarge, ml.trn1.32xlarge, ml.trn1n.32xlarge
Llama-3.2-1B-Instrucción	meta-generación de texto-llama-3-2-1b-instrucciones, meta-generación de textoneurona-llama-3-2-1b-instruir	ml.g6.xlarge (longitud de contexto 125K), ml.trn1.2xlarge (longitud de contexto de 125 KB)	Todas las instancias g6/g5/p4/p5; ml.inf2.xlarge, ml.inf2.8xlarge, ml.inf2.24xlarge, ml.inf2.48xlarge, ml.trn1.2xlarge, ml.trn1.32xlarge, ml.trn1n.32xlarge
Llama-3.2-3B	meta-generación de texto-llama-3-2-3b, meta-generación de textoneurona-llama-3-2-3b	ml.g6.xlarge (longitud de contexto 125K), ml.trn1.2xlarge (longitud de contexto de 125 KB)	Todas las instancias g6/g5/p4/p5; ml.inf2.xlarge, ml.inf2.8xlarge, ml.inf2.24xlarge, ml.inf2.48xlarge, ml.trn1.2xlarge, ml.trn1.32xlarge, ml.trn1n.32xlarge
Llama-3.2-3B-Instrucción	meta-generación-de-texto-llama-3-2-3b-instruir, meta-generación de textoneurona-llama-3-2-3b-instruir	ml.g6.xlarge (longitud de contexto 125K), ml.trn1.2xlarge (longitud de contexto de 125 KB)	Todas las instancias g6/g5/p4/p5; ml.inf2.xlarge, ml.inf2.8xlarge, ml.inf2.24xlarge, ml.inf2.48xlarge, ml.trn1.2xlarge, ml.trn1.32xlarge, ml.trn1n.32xlarge
Llama-3.2-11B-Visión	meta-vlm-llama-3-2-11b-vision	ml.p4d.24xlarge (longitud de contexto 125K)	p4d.24xgrande, p4de.24xgrande, p5.48xgrande
Llama-3.2-11B-Visión-Instrucción	meta-vlm-llama-3-2-11b-vision-instruct	ml.p4d.24xlarge (longitud de contexto 125K)	p4d.24xgrande, p4de.24xgrande, p5.48xgrande
Llama-3.2-90B-Visión	meta-vlm-llama-3-2-90b-vision	ml.p5.24xlarge (longitud de contexto 125K)	p4d.24xgrande, p4de.24xgrande, p5.48xgrande
Llama-3.2-90B-Vision-Instruct	meta-vlm-llama-3-2-90b-vision-instruct	ml.p5.24xlarge (longitud de contexto 125K)	p4d.24xgrande, p4de.24xgrande, p5.48xgrande
Llama-Guardia-3-11B-Visión	meta-vlm-llama-guard-3-11b-vision	ml.p4d.24xgrande	p4d.24xgrande, p4de.24xgrande, p5.48xgrande

Los modelos Llama 3.2 se han evaluado en más de 150 conjuntos de datos de referencia, lo que demuestra un rendimiento competitivo con los principales FM.

Indicaciones de inferencia y ejemplo para Llama-3.2 11B Vision

Puede utilizar los modelos Llama 3.2 11B y 90B para casos de uso de texto e imagen o razonamiento visual. Puede realizar una variedad de tareas, como subtítulos de imágenes, recuperación de texto de imágenes, respuesta y razonamiento visual de preguntas, documentación de respuestas visuales a preguntas y más. La carga útil de entrada al punto final se parece a los siguientes ejemplos de código.

Entrada de solo texto

El siguiente es un ejemplo de entrada de solo texto:

{
    'messages': (
        {'role': 'system', 'content': 'You are a helpful assistant'}, 
        {'role': 'user', 'content': 'How are you doing today'}, 
        {'role': 'assistant', 'content': 'Good, what can i help you with today?'}, 
        {'role': 'user', "content": 'Give me 5 steps to become better at tennis?'}
    ), 
    'temperature': 0.6, 
    'top_p': 0.9, 
    'max_tokens': 512, 
    'logprobs': False
}

Esto produce la siguiente respuesta:

Here are 5 steps to help you improve your tennis game:

**Step 1: Develop a Consistent Serve**

A strong serve is the foundation of a good tennis game. Practice your serve regularly to develop a consistent and powerful shot. Focus on proper footwork, grip, and body positioning. Experiment with different serves, such as topspin and slice, to keep your opponent guessing.

**Step 2: Improve Your Footwork and Agility**

Good footwork is essential for getting into position to hit shots and covering the court. Practice shuffling, sliding, and turning to improve your agility and reaction time. Incorporate exercises like ladder drills and cone drills into your training to enhance your foot speed and agility.

**Step 3: Focus on Your Volley and Overhead Shots**

The volley and overhead shots are critical for winning points at the net. Practice hitting volleys and overheads with both forehand and backhand grips. Focus on keeping your racquet close to the ball and using your wrist and arm to generate power.

**Step 4: Work on Your Return of Serve**

The return of serve is a crucial shot in tennis, as it sets up the point for your opponent. Practice returning serves with different types of spin, such as topspin and slice. Focus on getting your racquet head to the ball early and using your legs to generate power.

**Step 5: Analyze Your Game and Practice with a Purpose**

To improve your game, you need to identify areas for improvement and practice with a purpose. Record your matches and analyze your game to identify weaknesses and areas for improvement. Create a practice plan that targets specific areas, such as your forehand or backhand, and focus on making progress in those areas.

Remember, improvement takes time and practice. Stay committed, and with consistent effort, you'll see improvement in your tennis game!

Entrada de una sola imagen

Puede configurar tareas de razonamiento basadas en la visión con modelos Llama 3.2 con SageMaker JumpStart de la siguiente manera:

import requests
import base64

def url_to_base64(image_url):
    # Download the image
    response = requests.get(image_url)
    if response.status_code != 200:
        return None

    # Encode the image content to base64
    image_base64 = base64.b64encode(response.content).decode('utf-8')
    return image_base64

Carguemos una imagen del código abierto. MATH-Visión conjunto de datos:

url = "https://raw.githubusercontent.com/mathvision-cuhk/MATH-V/refs/heads/main/images/13.jpg"
image_data = url_to_base64(url)

Podemos estructurar el objeto de mensaje con nuestros datos de imagen base64:

{
  "messages": (
    {
      "role": "user",
      "content": (
        {
          "type": "text",
          "text": "Which of these figures differs from the rest four?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"""data:image/jpeg;base64,{image_data}"""
          }
        }
      )
    }
  ),
  "temperature": 0.4,
  "top_p": 0.95,
  "max_tokens": 512,
  "logprobs": False
}

Esto produce la siguiente respuesta:

The figure labeled E is the one that differs from the rest.

Entrada de múltiples imágenes

El siguiente código es un ejemplo de entrada de múltiples imágenes:

image_data1 = url_to_base64("https://d2908q01vomqb2.cloudfront.net/887309d048beef83ad3eabf2a79a64a389ab1c9f/2023/04/27/DBBLOG-2448-SingleAZInstance.png")
image_data2 = url_to_base64("https://d2908q01vomqb2.cloudfront.net/887309d048beef83ad3eabf2a79a64a389ab1c9f/2023/04/27/DBBLOG-2448-MultiAZInstance.png")
payload = {
  "messages": (
    {
      "role": "user",
      "content": (
        {
          "type": "text",
          "text": "There are two images. Describe each one and why they are related"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"""data:image/jpeg;base64,{image_data1}"""
          }
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"""data:image/jpeg;base64,{image_data2}"""
          }
        }
      )
    }
  ),
  "temperature": 0.6,
  "top_p": 0.9,
  "max_tokens": 512,
  "logprobs": False
}

Esto produce la siguiente respuesta:

The two images depict different architectures for a distributed database system. The main difference between them is the location of the database instances and how they are connected.

**Image 1: Centralized Architecture**

In this image, there is a single database instance (DB1) that serves as the central repository for all data. This instance is connected to multiple application servers (App1, App2, App3) through a network. The application servers interact with the database instance to read and write data.

**Image 2: Distributed Architecture**

In this image, there are multiple database instances (DB1, DB2, DB3) that are distributed across different locations. Each database instance is connected to a local application server (App1, App2, App3) through a network. The application servers interact with their local database instances to read and write data.

The key differences between the two images are:

* **Scalability**: The distributed architecture (Image 2) allows for easier scalability, as new database instances can be added or removed as needed, without affecting the overall system.
* **Availability**: The distributed architecture provides higher availability, as if one database instance goes down, the other instances can still serve requests.
* **Performance**: The centralized architecture (Image 1) may experience performance issues if the central database instance becomes a bottleneck, while the distributed architecture can distribute the load across multiple instances.
* **Data consistency**: The centralized architecture may have easier data consistency management, as all data is stored in a single location, while the distributed architecture requires more complex mechanisms to ensure data consistency across multiple instances.

In summary, the centralized architecture is suitable for small to medium-sized applications with low traffic, while the distributed architecture is more suitable for large-scale applications with high traffic and scalability requirements.

Limpiar

Para evitar incurrir en costos innecesarios, cuando haya terminado, elimine los puntos finales de SageMaker usando los siguientes fragmentos de código:

predictor.delete_model()
predictor.delete_endpoint()

Alternativamente, para usar la consola de SageMaker, complete los siguientes pasos:

En la consola de SageMaker, en Inferencia en el panel de navegación, elija Puntos finales.
Busque los puntos finales de incrustación y generación de texto.
En la página de detalles del punto final, elija Borrar.
Elegir Borrar nuevamente para confirmar.

Conclusión

En esta publicación, exploramos cómo SageMaker JumpStart permite a los científicos de datos y a los ingenieros de ML descubrir, acceder e implementar una amplia gama de FM previamente entrenados para inferencia, incluidos los modelos más avanzados y capaces de Meta hasta la fecha. Comience hoy con los modelos SageMaker JumpStart y Llama 3.2. Para obtener más información sobre SageMaker JumpStart, consulte Entrenar, implementar y evaluar modelos previamente entrenados con SageMaker JumpStart y Introducción a amazon SageMaker JumpStart.

Acerca de los autores

Supriya Puragundla es arquitecto senior de soluciones en AWS
Armando Diaz es arquitecto de soluciones en AWS
Sharon Yu es ingeniero de desarrollo de software en AWS
Siddharth Venkatesan es ingeniero de desarrollo de software en AWS
Tony Lian es ingeniero de software en AWS
Evan Kravitz es ingeniero de desarrollo de software en AWS
Jonathan Guinea es ingeniero de software sénior en AWS
Tyler Osterberg es ingeniero de software en AWS
Sindhu Vahini Somasundaram es ingeniero de desarrollo de software en AWS
Hemant Singh es científico aplicado en AWS
Xin Huang es científico aplicado sénior en AWS
Adriana Simmons es gerente senior de marketing de productos en AWS
Junio ganó es gerente senior de productos en AWS
Karl Albertsen es jefe de algoritmos de aprendizaje automático y JumpStart en AWS

Los modelos Llama 3.2 de Meta ya están disponibles en Amazon SageMaker JumpStart

Technical Terrence Team

Forget power strips, Royal Caribbean bans another item

Leave a Reply Cancel reply

Recommended.

Microsoft Is Gradually Closing In on Apple as It Eyes Position as World’s Largest Stock

Ethereum Whale Transactions Jump Over 50% as ETH Targets $2,000

Bitcoin is the path to transactional freedom, says Robert K. Kennedy

Stanford researchers explore scaling inference computing in language models: how to achieve better performance and cost-effectiveness through repeated sampling

Bitcoin Spot ETFs Could Trade Live on Thursday or Friday: CNBC

Categories

Important Links

Los modelos Llama 3.2 de Meta ya están disponibles en Amazon SageMaker JumpStart

Descripción general de Llama 3.2

Descripción general de SageMaker JumpStart

Requisitos previos

Descubra los modelos Llama 3.2 en SageMaker JumpStart

Implemente modelos multimodales de Llama 3.2 para inferencia usando SageMaker JumpStart

Implemente el modelo Llama 3.2 11B Vision para inferencia utilizando el SDK de Python

Instancias recomendadas y punto de referencia

Indicaciones de inferencia y ejemplo para Llama-3.2 11B Vision

Entrada de solo texto

Entrada de una sola imagen

Entrada de múltiples imágenes

Limpiar

Conclusión

Acerca de los autores

Related

Technical Terrence Team

Forget power strips, Royal Caribbean bans another item

Leave a Reply Cancel reply

Recommended.

Microsoft Is Gradually Closing In on Apple as It Eyes Position as World’s Largest Stock

Ethereum Whale Transactions Jump Over 50% as ETH Targets $2,000

Bitcoin is the path to transactional freedom, says Robert K. Kennedy

Stanford researchers explore scaling inference computing in language models: how to achieve better performance and cost-effectiveness through repeated sampling

Bitcoin Spot ETFs Could Trade Live on Thursday or Friday: CNBC

Categories

Important Links

Get daily news updates to your inbox!