Las organizaciones de todos los sectores quieren categorizar y extraer información de grandes volúmenes de documentos de diferentes formatos. El procesamiento manual de estos documentos para clasificar y extraer información sigue siendo costoso, propenso a errores y difícil de escalar. Los avances en inteligencia artificial generativa (IA) han dado lugar a soluciones de procesamiento inteligente de documentos (IDP) que pueden automatizar la clasificación de documentos y crear una capa de clasificación rentable capaz de manejar documentos empresariales diversos y no estructurados.
La categorización de documentos es un primer paso importante en los sistemas de desplazados internos. Le ayuda a determinar el siguiente conjunto de acciones a realizar según el tipo de documento. Por ejemplo, durante el proceso de adjudicación de reclamos, el equipo de cuentas por pagar recibe la factura, mientras que el departamento de reclamos administra el contrato o los documentos de la póliza. Los motores de reglas tradicionales o la clasificación basada en ML pueden clasificar los documentos, pero a menudo alcanzan un límite en los tipos de formatos de documentos y admiten la adición dinámica de nuevas clases de documentos. Para obtener más información, consulte El clasificador de documentos de amazon Comprehend agrega soporte de diseño para una mayor precisión.
En esta publicación, analizamos la clasificación de documentos utilizando el modelo amazon Titan Multimodal Embeddings para clasificar cualquier tipo de documento sin necesidad de capacitación.
Incorporaciones multimodales de amazon Titan
amazon introdujo recientemente Titan Multimodal Embeddings en amazon Bedrock. Este modelo puede crear incrustaciones de imágenes y texto, lo que permite la creación de incrustaciones de documentos para utilizarlos en nuevos flujos de trabajo de clasificación de documentos.
Genera representaciones vectoriales optimizadas de documentos escaneados como imágenes. Al codificar componentes visuales y textuales en vectores numéricos unificados que encapsulan significado semántico, permite una indexación rápida, una búsqueda contextual potente y una clasificación precisa de documentos.
A medida que surgen nuevos tipos y plantillas de documentos en los flujos de trabajo empresariales, puede simplemente invocar la API de amazon Bedrock para vectorizarlos dinámicamente y agregarlos a sus sistemas IDP para mejorar rápidamente las capacidades de clasificación de documentos.
Descripción general de la solución
Examinemos la siguiente solución de clasificación de documentos con el modelo amazon Titan Multimodal Embeddings. Para obtener un rendimiento óptimo, debe personalizar la solución según su caso de uso específico y la configuración de canalización de IDP existente.
Esta solución clasifica documentos mediante búsqueda semántica de incrustación de vectores al hacer coincidir un documento de entrada con una galería de documentos ya indexada. Utilizamos los siguientes componentes clave:
- Incrustaciones – Las incrustaciones son representaciones numéricas de objetos del mundo real que el aprendizaje automático (ML) y los sistemas de inteligencia artificial utilizan para comprender dominios de conocimiento complejos como lo hacen los humanos.
- Bases de datos vectoriales – Las bases de datos vectoriales se utilizan para almacenar incrustaciones. Las bases de datos vectoriales indexan y organizan eficientemente las incrustaciones, lo que permite una recuperación rápida de vectores similares basados en métricas de distancia como la distancia euclidiana o la similitud del coseno.
- búsqueda semántica – La búsqueda semántica funciona considerando el contexto y el significado de la consulta de entrada y su relevancia para el contenido que se busca. Las incrustaciones de vectores son una forma eficaz de capturar y retener el significado contextual de texto e imágenes. En nuestra solución, cuando una aplicación quiere realizar una búsqueda semántica, el documento de búsqueda primero se convierte en una incrustación. Luego se consulta la base de datos de vectores con contenido relevante para encontrar las incrustaciones más similares.
En el proceso de etiquetado, un conjunto de muestra de documentos comerciales, como facturas, extractos bancarios o recetas, se convierten en incrustaciones utilizando el modelo amazon Titan Multimodal Embeddings y se almacenan en una base de datos vectorial con etiquetas predefinidas. El modelo de incrustación multimodal de amazon Titan se entrenó utilizando el algoritmo euclidiano L2 y, por lo tanto, para obtener mejores resultados, la base de datos vectorial utilizada debe admitir este algoritmo.
El siguiente diagrama de arquitectura ilustra cómo puede utilizar el modelo amazon Titan Multimodal Embeddings con documentos en un depósito de amazon Simple Storage Service (amazon S3) para la creación de una galería de imágenes.
El flujo de trabajo consta de los siguientes pasos:
- Un usuario o aplicación carga una imagen de documento de muestra con metadatos de clasificación en una galería de imágenes de documentos. Se puede utilizar un prefijo S3 o metadatos de objetos S3 para clasificar las imágenes de la galería.
- Un evento de notificación de objetos de amazon S3 invoca la función de incorporación de AWS Lambda.
- La función Lambda lee la imagen del documento y traduce la imagen en incrustaciones llamando a amazon Bedrock y utilizando el modelo amazon Titan Multimodal Embeddings.
- Las incrustaciones de imágenes, junto con la clasificación de documentos, se almacenan en la base de datos vectorial.
<img class="alignnone wp-image-73650 size-full" style="margin: 10px 0px 10px 0px;border: 1px solid #CCCCCC" src="https://technicalterrence.com/wp-content/uploads/2024/04/Clasificacion-de-documentos-rentable-mediante-el-modelo-de-incrustaciones-multimodales.jpg" alt="Este es el diagrama de arquitectura que ilustra cómo se pueden usar Titan Multimodal Embeddings con documentos en un depósito de amazon Simple Storage Service (amazon S3) para la creación y clasificación de galerías de imágenes.” width=”921″ height=”401″/>
Cuando un documento nuevo necesita clasificación, se utiliza el mismo modelo de incrustación para convertir el documento de consulta en una incrustación. Luego, se realiza una búsqueda de similitud semántica en la base de datos de vectores utilizando la incrustación de consultas. La etiqueta recuperada con la coincidencia de incrustación superior será la etiqueta de clasificación para el documento de consulta.
El siguiente diagrama de arquitectura ilustra cómo utilizar el modelo de amazon Titan Multimodal Embeddings con documentos en un depósito de S3 para la clasificación de imágenes.
El flujo de trabajo consta de los siguientes pasos:
- Los documentos que requieren clasificación se cargan en un depósito de entrada de S3.
- La función Lambda de clasificación recibe la notificación de objeto de amazon S3.
- La función Lambda traduce la imagen a una incrustación llamando a la API de amazon Bedrock.
- Se busca un documento coincidente en la base de datos de vectores mediante búsqueda semántica. La clasificación del documento coincidente se utiliza para clasificar el documento de entrada.
- El documento de entrada se mueve al directorio o prefijo S3 de destino utilizando la clasificación recuperada de la búsqueda en la base de datos vectorial.
<img loading="lazy" class="alignnone wp-image-73651 size-full" style="margin: 10px 0px 10px 0px;border: 1px solid #CCCCCC" src="https://technicalterrence.com/wp-content/uploads/2024/04/1712923285_864_Clasificacion-de-documentos-rentable-mediante-el-modelo-de-incrustaciones-multimodales.jpg" alt="Este es el diagrama de arquitectura que ilustra cómo se pueden utilizar Titan Multimodal Embeddings con documentos en un depósito de amazon Simple Storage Service (amazon S3) para la clasificación de imágenes.” width=”931″ height=”495″/>
Para ayudarle a probar la solución con sus propios documentos, hemos creado un cuaderno de ejemplo de Python Jupyter, que está disponible en ai-intelligent-document-processing/blob/main/gen-ai/07-idp-genai-document-classification.ipynb” target=”_blank” rel=”noopener”>GitHub.
Requisitos previos
Para ejecutar el cuaderno, necesita una cuenta de AWS con permisos adecuados de AWS Identity and Access Management (IAM) para llamar a amazon Bedrock. Además, sobre el Acceso al modelo página de la consola de amazon Bedrock, asegúrese de que se conceda acceso al modelo de amazon Titan Multimodal Embeddings.
Implementación
En los siguientes pasos, reemplace cada marcador de posición ingresado por el usuario con su propia información:
- Cree la base de datos de vectores. En esta solución, utilizamos una base de datos FAISS en memoria, pero se podría utilizar una base de datos vectorial alternativa. El tamaño de dimensión predeterminado de amazon Titan es 1024.
- Una vez creada la base de datos de vectores, enumere los documentos de muestra, cree incrustaciones de cada uno y guárdelos en la base de datos de vectores.
- Pruebe con sus documentos. Reemplace las carpetas en el siguiente código con sus propias carpetas que contengan tipos de documentos conocidos:
- Usando la biblioteca Boto3, llame a amazon Bedrock. La variable
inputImageB64
es una matriz de bytes codificada en base64 que representa su documento. La respuesta de amazon Bedrock contiene las incrustaciones.
- Agregue las incrustaciones a la base de datos vectorial, con un ID de clase que represente un tipo de documento conocido:
- Con la base de datos vectorial repleta de imágenes (que representa nuestra galería), puede descubrir similitudes con nuevos documentos. Por ejemplo, la siguiente es la sintaxis utilizada para la búsqueda. El k=1 le dice a FAISS que devuelva la primera coincidencia.
Además, también se devuelve la distancia euclidiana L2 entre la imagen disponible y la imagen encontrada. Si la imagen coincide exactamente, este valor sería 0. Cuanto mayor sea este valor, más separadas estarán las imágenes en similitud.
Consideraciones adicionales
En esta sección, analizamos consideraciones adicionales para utilizar la solución de forma eficaz. Esto incluye privacidad de datos, seguridad, integración con sistemas existentes y estimaciones de costos.
Privacidad y seguridad de datos
El modelo de responsabilidad compartida de AWS se aplica a la protección de datos en amazon Bedrock. Como se describe en este modelo, AWS es responsable de proteger la infraestructura global que ejecuta toda la nube de AWS. Los clientes son responsables de mantener el control sobre el contenido alojado en esta infraestructura. Como cliente, usted es responsable de las tareas de configuración y administración de seguridad de los servicios de AWS que utiliza.
Protección de datos en amazon Bedrock
amazon Bedrock evita utilizar indicaciones y continuaciones de los clientes para entrenar modelos de AWS o compartirlos con terceros. amazon Bedrock no almacena ni registra datos de clientes en sus registros de servicio. Los proveedores de modelos no tienen acceso a los registros de amazon Bedrock ni a las indicaciones y continuaciones de los clientes. Como resultado, las imágenes utilizadas para generar incrustaciones a través del modelo amazon Titan Multimodal Embeddings no se almacenan ni se emplean en el entrenamiento de modelos de AWS ni en la distribución externa. Además, otros datos de uso, como marcas de tiempo e ID de cuentas registradas, se excluyen del entrenamiento del modelo.
Integración con sistemas existentes.
El modelo de amazon Titan Multimodal Embeddings se entrenó con el algoritmo euclidiano L2, por lo que la base de datos vectorial que se utilice debe ser compatible con este algoritmo.
Costo estimado
Al momento de escribir esta publicación, según los precios de amazon Bedrock para el modelo amazon Titan Multimodal Embeddings, los siguientes son los costos estimados utilizando precios bajo demanda para esta solución:
- Costo de indexación único – $0,06 por una sola ejecución de indexación, suponiendo una galería de 1000 imágenes
- Costo de clasificación – $6 por 100.000 imágenes de entrada por mes
Limpiar
Para evitar incurrir en cargos futuros, elimine los recursos que creó, como la instancia del cuaderno de amazon SageMaker, cuando no esté en uso.
Conclusión
En esta publicación, exploramos cómo se puede utilizar el modelo amazon Titan Multimodal Embeddings para crear una solución económica para la clasificación de documentos en el flujo de trabajo IDP. Demostramos cómo crear una galería de imágenes de documentos conocidos y realizar búsquedas de similitud con documentos nuevos para clasificarlos. También analizamos los beneficios de utilizar incrustaciones de imágenes multimodales para la clasificación de documentos, incluida su capacidad para manejar diversos tipos de documentos, escalabilidad y baja latencia.
A medida que surgen nuevos tipos y plantillas de documentos en los flujos de trabajo empresariales, los desarrolladores pueden invocar la API de amazon Bedrock para vectorizarlos dinámicamente y agregarlos a sus sistemas IDP para mejorar rápidamente las capacidades de clasificación de documentos. Esto crea una capa de clasificación económica e infinitamente escalable que puede manejar incluso los documentos empresariales más diversos y no estructurados.
En general, esta publicación proporciona una hoja de ruta para crear una solución económica para la clasificación de documentos en el flujo de trabajo de IDP mediante amazon Titan Multimodal Embeddings.
Como próximos pasos, consulte Qué es amazon Bedrock para comenzar a utilizar el servicio. Y siga a amazon Bedrock en el blog de aprendizaje automático de AWS para mantenerse actualizado sobre nuevas capacidades y casos de uso de amazon Bedrock.
Sobre los autores
Sumit Bhati es gerente senior de soluciones para clientes en AWS y se especializa en acelerar el viaje a la nube para clientes empresariales. Sumit se dedica a ayudar a los clientes en cada fase de su adopción de la nube, desde acelerar las migraciones hasta modernizar las cargas de trabajo y facilitar la integración de prácticas innovadoras.
David Girling es un arquitecto senior de soluciones de IA/ML con más de 20 años de experiencia en el diseño, liderazgo y desarrollo de sistemas empresariales. David forma parte de un equipo de especialistas que se centra en ayudar a los clientes a aprender, innovar y utilizar estos servicios de gran capacidad con sus datos para sus casos de uso.
Ravi Avula es arquitecto senior de soluciones en AWS y se especializa en arquitectura empresarial. Ravi tiene 20 años de experiencia en ingeniería de software y ha ocupado varios puestos de liderazgo en ingeniería de software y arquitectura de software en la industria de pagos.
George Belsian es arquitecto senior de aplicaciones en la nube en AWS. Le apasiona ayudar a los clientes a acelerar su proceso de modernización y adopción de la nube. En su puesto actual, George trabaja junto con los equipos de clientes para diseñar estrategias, diseñar y desarrollar soluciones innovadoras y escalables.