En esta serie, compartimos dos enfoques para obtener información sobre datos multimodales como texto, imágenes y gráficos. En la Parte 1, presentamos una solución de “incrustar primero, inferir después” que utiliza el modelo básico (FM) de amazon Titan Multimodal Embeddings para convertir diapositivas individuales de una plataforma de diapositivas en incrustaciones. Almacenamos las incrustaciones en una base de datos vectorial y luego usamos el Asistente de lenguaje y visión grande (LLaVA 1.5-7b) modelo para generar respuestas de texto a las preguntas de los usuarios basadas en la diapositiva más similar recuperada de la base de datos vectorial. La parte 1 utiliza servicios de AWS, incluidos amazon Bedrock, amazon SageMaker y amazon OpenSearch Serverless.
En la Parte 2, demostramos un enfoque diferente: “inferir primero, incorporar después”. Usamos Claude 3 Sonnet de Anthropic en amazon Bedrock para generar descripciones de texto para cada diapositiva en la plataforma de diapositivas. Luego, estas descripciones se convierten en incrustaciones de texto utilizando el modelo amazon Titan Text Embeddings y se almacenan en una base de datos vectorial. Luego utilizamos Claude 3 Sonnet de Anthropic para generar respuestas a las preguntas de los usuarios basadas en la descripción de texto más relevante recuperada de la base de datos de vectores.
En esta publicación, evaluamos los resultados de ambos enfoques utilizando la verdad sobre el terreno proporcionada por DiapositivaVQA(1), un conjunto de datos de respuesta a preguntas visuales de código abierto. Puede probar ambos enfoques y evaluar los resultados para encontrar la mejor opción para sus conjuntos de datos. El código de esta serie está disponible en el repositorio de GitHub.
Comparación de enfoques
SlideVQA es una colección de presentaciones de diapositivas disponibles públicamente, cada una compuesta por varias diapositivas (en formato JPG) y preguntas basadas en la información contenida en las presentaciones de diapositivas. Permite que un sistema seleccione un conjunto de imágenes de evidencia y responda la pregunta. Utilizamos SlideVQA como única fuente de verdad para comparar los resultados. Es importante que siga las políticas de protección de datos de amazon Bedrock cuando utilice conjuntos de datos públicos.
Esta publicación sigue el proceso que se muestra en el siguiente diagrama. Para obtener más detalles sobre la arquitectura, consulte la descripción general y el diseño de la solución en las Partes 1 y 2 de la serie.
Seleccionamos 100 preguntas aleatorias de SlideVQA para crear un conjunto de datos de muestra para probar las soluciones de las Partes 1 y 2.
Las respuestas a las preguntas del conjunto de datos de muestra son lo más concisas posible, como se muestra en el siguiente ejemplo:
Las respuestas de los modelos de lenguajes grandes (LLM) son bastante detalladas:
Las siguientes secciones analizan brevemente las soluciones y profundizan en la evaluación y el precio de cada enfoque.
Enfoque 1: integrar primero, inferir después
Las presentaciones de diapositivas se convierten en imágenes PDF, una por diapositiva, y se incrustan utilizando el modelo amazon Titan Multimodal Embeddings, lo que da como resultado una incrustación vectorial de 1024 dimensiones. Las incrustaciones se almacenan en un índice OpenSearch Serverless, que sirve como almacén de vectores para nuestra solución de recuperación de generación aumentada (RAG). Las incorporaciones se incorporan mediante una canalización de ingesta de amazon OpenSearch.
Cada pregunta se convierte en incrustaciones mediante el modelo de incrustaciones multimodales de amazon Titan y se realiza una búsqueda vectorial de OpenSearch utilizando estas incrustaciones. Realizamos una búsqueda de k-vecino más cercano (k-NN) para recuperar la incrustación más relevante que coincida con la pregunta. Los metadatos de la respuesta del índice OpenSearch contienen una ruta a la imagen correspondiente a la diapositiva más relevante.
El siguiente mensaje se crea combinando la pregunta y la ruta de la imagen, y se envía a Claude 3 Sonnet de Anthropic para responder a la pregunta con una respuesta concisa:
Usamos Claude 3 Sonnet de Anthropic en lugar de LLaVA 1.5-7b como se menciona en la solución de la Parte 1. El enfoque sigue siendo el mismo, “incrustar primero, inferir después”, pero el modelo que compila la respuesta final se cambia para simplificar y comparar entre aproches.
Una respuesta para cada pregunta del conjunto de datos es grabado en formato JSON y comparado con la verdad básica proporcionada por SlideVQA.
Este enfoque obtuvo una respuesta para el 78% de las preguntas en un conjunto de datos de 100 preguntas, logrando una precisión del 50% en las respuestas finales.
Enfoque 2: inferir primero, incrustar después
Las presentaciones de diapositivas se convierten en imágenes PDF, una por diapositiva, y se pasan a Claude 3 Sonnet de Anthropic para generar una descripción de texto. La descripción se envía al modelo de amazon Titan Text Embeddings para generar incrustaciones vectoriales con 1536 dimensiones. Las incorporaciones se incorporan a un índice de OpenSearch Serverless mediante una canalización de OpenSearch Ingestion.
Cada pregunta se convierte en incrustaciones utilizando el modelo amazon Titan Text Embeddings y se realiza una búsqueda vectorial OpenSearch utilizando estas incrustaciones. Realizamos una búsqueda de k-NN para recuperar la incorporación más relevante que coincida con la pregunta. Los metadatos de la respuesta del índice OpenSearch contienen la descripción de la imagen correspondiente a la diapositiva más relevante.
Creamos un mensaje con la pregunta y la descripción de la imagen y se lo pasamos a Claude 3 Sonnet de Anthropic para recibir una respuesta precisa. La siguiente es la plantilla de aviso:
Con este enfoque, obtuvimos una precisión del 44 % en las respuestas finales y el 75 % de las preguntas obtuvieron una respuesta de las 100 preguntas del conjunto de datos de muestra.
Análisis de resultados
En nuestras pruebas, ambos enfoques produjeron un 50% o menos de resultados coincidentes con las preguntas del conjunto de datos de muestra. El conjunto de datos de muestra contiene una selección aleatoria de diapositivas que cubren una amplia variedad de temas, incluidos comercio minorista, atención médica, académico, tecnología, personal y viajes. Por lo tanto, para una pregunta genérica como “¿Cuáles son ejemplos de herramientas que se pueden utilizar?” que carece de contexto adicional, la coincidencia más cercana podría recuperar respuestas de una variedad de temas, lo que generaría resultados inexactos, especialmente cuando todas las incrustaciones se incorporan en el mismo índice de OpenSearch. El uso de técnicas como la búsqueda híbrida, el filtrado previo basado en metadatos y la reclasificación se pueden utilizar para mejorar la precisión de la recuperación.
Una de las soluciones es recuperar más resultados (aumentar el valor k) y reordenarlos para mantener los más relevantes; esta técnica se llama reclasificación. Compartimos formas adicionales de mejorar la precisión de los resultados más adelante en esta publicación.
El indicaciones finales El Soneto Claude 3 de Anthropic en nuestro análisis incluyó instrucciones para proporcionar una respuesta concisa en la menor cantidad de palabras posible para poder compararla con la verdad fundamental. Sus respuestas dependerán de sus indicaciones al LLM.
Precios
El precio depende de la modalidad, proveedor y modelo utilizado. Para obtener más detalles, consulte los precios de amazon Bedrock. Utilizamos el modo de precios bajo demanda y por lotes en nuestro análisis, que le permiten utilizar FM en forma de pago por uso sin tener que asumir compromisos de plazos basados en el tiempo. Para los modelos de generación de texto, se le cobra por cada token de entrada procesado y cada token de salida generado. Para los modelos integrados, se le cobra por cada token de entrada procesado.
Las siguientes tablas muestran el precio por pregunta para cada enfoque. Calculamos la cantidad promedio de tokens de entrada y salida según nuestro conjunto de datos de muestra para la región de AWS us-east-1; los precios pueden variar según los conjuntos de datos y la región utilizada.
Puede utilizar las siguientes tablas como guía. Consulte el sitio web de precios de amazon Bedrock para obtener información adicional.
Enfoque 1 |
|||||||
Fichas de entrada | Fichas de salida | ||||||
Modelo | Descripción | Precio por 1000 tokens / Precio por imagen de entrada | Número de fichas | Precio | Precio por 1000 tokens | Número de fichas | Precio |
Incorporaciones multimodales de amazon Titan | Incrustación de diapositivas/imágenes | $0.00006 | 1 | $0.00000006 | $0.000 | 0 | $0.00000 |
Incorporaciones multimodales de amazon Titan | Incrustación de preguntas | $0.00080 | 20 | $0.00001600 | $0.000 | 0 | $0.00000 |
Soneto de Claude 3 de Anthropic | Respuesta final | $0.00300 | 700 | $0.00210000 | $0.015 | 8 | $0.00012 |
Costo por entrada/salida | $0.00211606 | $0.00012 | |||||
Costo total por pregunta | $0.00224 |
Enfoque 2 | |||||||
Fichas de entrada | Fichas de salida | ||||||
Modelo | Descripción | Precio por 1000 tokens / Precio por imagen de entrada | Número de fichas | Precio | Precio por 1000 tokens | Número de fichas | Precio |
Soneto de Claude 3 de Anthropic | Descripción de diapositiva/imagen | $0.00300 | 4523 | $0.01356900 | $0.015 | 350 | $0.00525 |
Incrustaciones de texto de amazon Titan | Incrustación de descripción de diapositiva/imagen | $0.00010 | 350 | $0.00003500 | $0.000 | 0 | $0.00000 |
Incrustaciones de texto de amazon Titan | Incrustación de preguntas | $0.00010 | 20 | $0.00000200 | $0.000 | 0 | $0.00000 |
Soneto de Claude 3 de Anthropic | Respuesta final | $0.00300 | 700 | $0.00210000 | $0.015 | 8 | $0.00012 |
Costo por entrada/salida | $0.01570600 | $0.00537 | |||||
Costo total por pregunta | $0.02108 |
Limpiar
Para evitar incurrir en cargos, elimine todos los recursos de las Partes 1 y 2 de la solución. Puede hacerlo eliminando las pilas mediante la consola de AWS CloudFormation.
Conclusión
En las partes 1 y 2 de esta serie, exploramos formas de utilizar el poder de los FM multimodales, como amazon Titan Multimodal Embeddings, amazon Titan Text Embeddings y Claude 3 Sonnet de Anthropic. En esta publicación, comparamos los enfoques desde una perspectiva de precisión y precios.
El código para todas las partes de la serie está disponible en el repositorio de GitHub. Le animamos a implementar ambos enfoques y explorar diferentes modelos de Anthropic Claude disponibles en amazon Bedrock. Puede descubrir nueva información y descubrir nuevas perspectivas utilizando el contenido de diapositivas de su organización con cualquiera de los enfoques. Compare los dos enfoques para identificar un mejor flujo de trabajo para sus presentaciones de diapositivas.
Dado el rápido desarrollo de la IA generativa, existen varias formas de mejorar los resultados y abordar el problema. Estamos explorando realizar una búsqueda híbrida y agregar filtros de búsqueda extrayendo entidades de la pregunta para mejorar los resultados. La cuarta parte de esta serie explorará estos conceptos en detalle.
Partes de este código se publican bajo la licencia Apache 2.0.
Recursos
(1) Tanaka, Ryota y Nishida, Kyosuke y Nishida, Kosuke y Hasegawa, Taku y Saito, Itsumi y Saito, Kuniko. (2023). SlideVQA: un conjunto de datos para responder consultas visuales de documentos en varias imágenes. Actas de la Conferencia AAAI sobre Inteligencia Artificial. 37. 13636–13645. doi:10.1609/aaai.v37i11.26598.
Acerca de los autores
Archana Inapudi es arquitecto senior de soluciones en AWS y brinda soporte a un cliente estratégico. Tiene más de una década de experiencia en múltiples industrias liderando iniciativas técnicas estratégicas. Archana es un aspirante a miembro de la comunidad de campo técnico de IA/ML en AWS. Antes de unirse a AWS, Archana dirigió una migración de fuentes de datos tradicionales aisladas a Hadoop en una empresa de atención médica. Le apasiona utilizar la tecnología para acelerar el crecimiento, brindar valor a los clientes y lograr resultados comerciales.
Manju Prasad es arquitecto senior de soluciones en amazon Web Services. Se centra en brindar orientación técnica en una variedad de dominios técnicos, incluidos ai/ML. Antes de unirse a AWS, diseñó y construyó soluciones para empresas del sector de servicios financieros y también para una startup. Ha trabajado en todas las capas de la pila de software, desde desarrollo web hasta bases de datos, y tiene experiencia en todos los niveles del ciclo de vida del desarrollo de software. Le apasiona compartir conocimientos y fomentar el interés por el talento emergente.
Amit Arora es un arquitecto especialista en inteligencia artificial y aprendizaje automático en amazon Web Services y ayuda a los clientes empresariales a utilizar servicios de aprendizaje automático basados en la nube para escalar rápidamente sus innovaciones. También es profesor adjunto en el programa de análisis y ciencia de datos de maestría en la Universidad de Georgetown en Washington, DC.
entre raisa es arquitecto de soluciones de inteligencia artificial y aprendizaje automático en amazon Web Services y brinda soporte a clientes estratégicos con sede en Dallas, Texas. También tiene experiencia previa trabajando con grandes socios empresariales en AWS, donde trabajó como arquitecta de soluciones de éxito de socios para clientes centrados en lo digital.