Nos complace anunciar el lanzamiento de la integración de Amazon DocumentDB (con compatibilidad con MongoDB) con Amazon SageMaker Canvas, lo que permite a los clientes de Amazon DocumentDB crear y utilizar soluciones de inteligencia artificial generativa y aprendizaje automático (ML) sin escribir código. Amazon DocumentDB es una base de datos de documentos JSON nativa totalmente administrada que hace que sea sencillo y rentable operar cargas de trabajo de documentos críticos prácticamente a cualquier escala sin administrar la infraestructura. Amazon SageMaker Canvas es un espacio de trabajo de aprendizaje automático sin código que ofrece modelos listos para usar, incluidos modelos básicos, y la capacidad de preparar datos y crear e implementar modelos personalizados.
En esta publicación, analizamos cómo incorporar los datos almacenados en Amazon DocumentDB a SageMaker Canvas y utilizar esos datos para crear modelos de aprendizaje automático para análisis predictivos. Sin crear ni mantener canalizaciones de datos, podrá potenciar los modelos de aprendizaje automático con sus datos no estructurados almacenados en Amazon DocumentDB.
Descripción general de la solución
Asumamos el papel de analista de negocios para una empresa de entrega de alimentos. Su aplicación móvil almacena información sobre restaurantes en Amazon DocumentDB debido a su escalabilidad y capacidades de esquema flexible. Quiere recopilar información sobre estos datos y crear un modelo de aprendizaje automático para predecir cómo se calificarán los nuevos restaurantes, pero le resulta difícil realizar análisis de datos no estructurados. Se encuentra con obstáculos porque necesita confiar en los equipos de ingeniería y ciencia de datos para lograr estos objetivos.
Esta nueva integración resuelve estos problemas al simplificar la incorporación de datos de Amazon DocumentDB a SageMaker Canvas y comenzar inmediatamente a preparar y analizar datos para ML. Además, SageMaker Canvas elimina la dependencia de la experiencia en aprendizaje automático para crear modelos de alta calidad y generar predicciones.
Demostramos cómo utilizar datos de Amazon DocumentDB para crear modelos de aprendizaje automático en SageMaker Canvas en los siguientes pasos:
- Cree un conector de Amazon DocumentDB en SageMaker Canvas.
- Analice datos utilizando IA generativa.
- Prepare datos para el aprendizaje automático.
- Construya un modelo y genere predicciones.
Requisitos previos
Para implementar esta solución, complete los siguientes requisitos previos:
- Tenga acceso de administrador de la nube de AWS con un usuario de AWS Identity and Access Management (IAM) con los permisos necesarios para completar la integración.
- Complete la configuración del entorno utilizando AWS CloudFormation a través de cualquiera de las siguientes opciones:
- Implementar una plantilla de CloudFormation en una nueva VPC – Esta opción crea un nuevo entorno de AWS que consta de la VPC, subredes privadas, grupos de seguridad, roles de ejecución de IAM, Amazon Cloud9, puntos finales de VPC requeridos y el dominio de SageMaker. Luego implementa Amazon DocumentDB en esta nueva VPC. Descargar el plantilla o inicie rápidamente la pila de CloudFormation eligiendo Pila de lanzamiento:
- Implementar una plantilla de CloudFormation en una VPC existente – Esta opción crea los puntos finales de VPC, las funciones de ejecución de IAM y el dominio de SageMaker necesarios en una VPC existente con subredes privadas. Descargar el plantilla o inicie rápidamente la pila de CloudFormation eligiendo Pila de lanzamiento:
- Implementar una plantilla de CloudFormation en una nueva VPC – Esta opción crea un nuevo entorno de AWS que consta de la VPC, subredes privadas, grupos de seguridad, roles de ejecución de IAM, Amazon Cloud9, puntos finales de VPC requeridos y el dominio de SageMaker. Luego implementa Amazon DocumentDB en esta nueva VPC. Descargar el plantilla o inicie rápidamente la pila de CloudFormation eligiendo Pila de lanzamiento:
Tenga en cuenta que si está creando un nuevo dominio de SageMaker, debe configurar el dominio para que esté en una VPC privada sin acceso a Internet para poder agregar el conector a Amazon DocumentDB. Para obtener más información, consulte Configurar Amazon SageMaker Canvas en una VPC sin acceso a Internet.
- Siga el tutorial para cargar datos de restaurantes de muestra en Amazon DocumentDB.
- Agregue acceso a Amazon Bedrock y al modelo Anthropic Claude dentro de él. Para obtener más información, consulte Agregar acceso al modelo.
Cree un conector de Amazon DocumentDB en SageMaker Canvas
Después de crear su dominio de SageMaker, complete los siguientes pasos:
- En la consola de Amazon DocumentDB, elija Aprendizaje automático sin código en el panel de navegación.
- Bajo Elige un dominio y perfil¸ elija su dominio de SageMaker y perfil de usuario.
- Elegir Lanzar lienzo para iniciar SageMaker Canvas en una nueva pestaña.
Cuando SageMaker Canvas termine de cargarse, aterrizará en el Flujos de datos pestaña.
- Elegir Crear para crear un nuevo flujo de datos.
- Ingrese un nombre para su flujo de datos y elija Crear.
- Agregue una nueva conexión de Amazon DocumentDB eligiendo Datos de importacionentonces escoge Tabular para Tipo de conjunto de datos.
- Sobre el Datos de importacion página, para Fuente de datoselegir DocumentoDB y Agregar conexión.
- Ingrese un nombre de conexión, como demostración, y elija el clúster de Amazon DocumentDB que desee.
Tenga en cuenta que SageMaker Canvas completará previamente el menú desplegable con clústeres en la misma VPC que su dominio de SageMaker.
- Introduzca un nombre de usuario, contraseña y nombre de la base de datos.
- Finalmente, seleccione su preferencia de lectura.
Para proteger el rendimiento de las instancias principales, SageMaker Canvas utiliza de forma predeterminada Secundario, lo que significa que solo leerá desde instancias secundarias. Cuando la preferencia de lectura es Secundaria preferida, SageMaker Canvas lee desde instancias secundarias disponibles, pero leerá desde la instancia principal si no hay una instancia secundaria disponible. Para obtener más información sobre cómo configurar una conexión de Amazon DocumentDB, consulte Conexión a una base de datos almacenada en AWS.
- Elegir Agregar conexión.
Si la conexión es exitosa, verá las colecciones en su base de datos de Amazon DocumentDB mostradas como tablas.
- Arrastre la tabla de su elección al lienzo en blanco. Para esta publicación, agregamos los datos de nuestro restaurante.
Las primeras 100 filas se muestran como vista previa.
- Para comenzar a analizar y preparar sus datos, elija Datos de importacion.
- Introduzca un nombre de conjunto de datos y elija Datos de importacion.
Analizar datos utilizando IA generativa
A continuación, queremos obtener algunos conocimientos sobre nuestros datos y buscar patrones. SageMaker Canvas proporciona una interfaz de lenguaje natural para analizar y preparar datos. Cuando el Datos Se carga la pestaña, puedes comenzar a chatear con tus datos con los siguientes pasos:
- Elegir Chat para preparación de datos.
- Recopile información sobre sus datos haciendo preguntas como las que se muestran en las siguientes capturas de pantalla.
Para obtener más información sobre cómo utilizar el lenguaje natural para explorar y preparar datos, consulte Usar lenguaje natural para explorar y preparar datos con una nueva capacidad de Amazon SageMaker Canvas.
Obtengamos una idea más profunda de la calidad de nuestros datos utilizando el Informe de conocimientos y calidad de datos de SageMaker Canvas, que evalúa automáticamente la calidad de los datos y detecta anomalías.
- Sobre el Análisis pestaña, elija Informe de información y calidad de los datos.
- Elegir
rating
como columna de destino y Regresión como tipo de problema, luego elija Crear.
Esto simulará el entrenamiento de modelos y proporcionará información sobre cómo podemos mejorar nuestros datos para el aprendizaje automático. El informe completo se genera en unos minutos.
Nuestro informe muestra que al 2,47 % de las filas de nuestro objetivo les faltan valores; abordaremos eso en el siguiente paso. Además, el análisis muestra que la address line 2
, name
y type_of_food
Las características tienen el mayor poder de predicción en nuestros datos. Esto indica que la información básica del restaurante, como la ubicación y la cocina, puede tener un impacto enorme en las calificaciones.
Prepare datos para el aprendizaje automático
SageMaker Canvas ofrece más de 300 transformaciones integradas para preparar sus datos importados. Para obtener más información sobre las funciones de transformación de SageMaker Canvas, consulte Preparar datos con transformaciones avanzadas. Agreguemos algunas transformaciones para preparar nuestros datos para entrenar un modelo de ML.
- Navega de regreso a la Flujo de datos página eligiendo el nombre de su flujo de datos en la parte superior de la página.
- Elija el signo más junto a Tipos de datos y elige Agregar transformación.
- Elegir Agregar paso.
- cambiemos el nombre del
address line 2
columna acities
.- Elegir Administrar columnas.
- Elegir Cambiar nombre de columna para Transformar.
- Elegir
address line 2
para Columna de entradaingresarcities
para Nuevo nombrey elige Agregar.
- Además, eliminemos algunas columnas innecesarias.
- Agrega una nueva transformación.
- Para Transformarelegir Colocar columna.
- Para Columnas para soltarelegir
URL
yrestaurant_id
. - Elegir Agregar.
(
- Nuestro
rating
A la columna de características le faltan algunos valores, así que completemos esas filas con el valor promedio de esta columna.- Agrega una nueva transformación.
- Para Transformarelegir Imputar.
- Para Tipo de columnaelegir Numérico.
- Para Columnas de entradaelegir el
rating
columna. - Para Estrategia de imputaciónelegir Significar.
- Para Columna de salidaingresar
rating_avg_filled
. - Elegir Agregar.
- Podemos dejar el
rating
columna porque tenemos una nueva columna con valores completos. - Porque
type_of_food
es de naturaleza categórica, querremos codificarlo numéricamente. Codifiquemos esta función utilizando la técnica de codificación one-hot.- Agrega una nueva transformación.
- Para Transformarelegir Codificación one-hot.
- Para columnas de entrada, elija
type_of_food
. - Para Estrategia de manejo no válidaelegir Mantener.
- Para Estilo de salidaelegir columnas.
- Para Columna de salidaingresar
encoded
. - Elegir Agregar.
Construir un modelo y generar predicciones.
Ahora que hemos transformado nuestros datos, entrenemos un modelo de ML numérico para predecir las calificaciones de los restaurantes.
- Elegir Crear modelo.
- Para Nombre del conjunto de datosingrese un nombre para la exportación del conjunto de datos.
- Elegir Exportar y espere a que se exporten los datos transformados.
- Elegir el Crear modelo enlace en la esquina inferior izquierda de la página.
También puede seleccionar el conjunto de datos desde la función Data Wrangler a la izquierda de la página.
- Introduzca un nombre de modelo.
- Elegir Análisis predictivoentonces escoge Crear.
- Elegir
rating_avg_filled
como columna de destino.
SageMaker Canvas selecciona automáticamente un tipo de modelo adecuado.
- Elegir Vista previa del modelo para garantizar que no haya problemas de calidad de los datos.
- Elegir Construcción rápida para construir el modelo.
La creación del modelo tardará aproximadamente entre 2 y 15 minutos en completarse.
Puede ver el estado del modelo una vez que el modelo termine de entrenarse. Nuestro modelo tiene un RSME de 0,422, lo que significa que el modelo a menudo predice la calificación de un restaurante dentro de +/- 0,422 del valor real, una aproximación sólida para la escala de calificación de 1 a 6.
- Finalmente, puede generar predicciones de muestra navegando a la Predecir pestaña.
Limpiar
Para evitar incurrir en cargos futuros, elimine los recursos que creó mientras seguía esta publicación. SageMaker Canvas le factura por la duración de la sesión y le recomendamos cerrar sesión en SageMaker Canvas cuando no lo esté utilizando. Consulte Cerrar sesión en Amazon SageMaker Canvas para obtener más detalles.
Conclusión
En esta publicación, analizamos cómo puede utilizar SageMaker Canvas para IA y ML generativos con datos almacenados en Amazon DocumentDB. En nuestro ejemplo, mostramos cómo un analista puede crear rápidamente un modelo de aprendizaje automático de alta calidad utilizando un conjunto de datos de restaurante de muestra.
Mostramos los pasos para implementar la solución, desde importar datos de Amazon DocumentDB hasta crear un modelo de ML en SageMaker Canvas. Todo el proceso se completó a través de una interfaz visual sin escribir una sola línea de código.
Para comenzar su viaje de aprendizaje automático con código bajo o sin código, consulte Amazon SageMaker Canvas.
Sobre los autores
Adeleke Coker es arquitecto de soluciones globales en AWS. Trabaja con clientes de todo el mundo para brindar orientación y asistencia técnica en la implementación de cargas de trabajo de producción a escala en AWS. En su tiempo libre, le gusta aprender, leer, jugar y ver eventos deportivos.
Gururaj S Bayari es arquitecto senior de soluciones especializado en DocumentDB en AWS. Le gusta ayudar a los clientes a adoptar las bases de datos especialmente diseñadas por Amazon. Ayuda a los clientes a diseñar, evaluar y optimizar su escala de Internet y cargas de trabajo de alto rendimiento impulsadas por NoSQL y/o bases de datos relacionales.
Equipo Pusateri es gerente senior de productos en AWS, donde trabaja en Amazon SageMaker Canvas. Su objetivo es ayudar a los clientes a obtener rápidamente valor de ai/ML. Fuera del trabajo, le encanta estar al aire libre, tocar la guitarra, ver música en vivo y pasar tiempo con familiares y amigos.
Pratik Das es gerente de producto en AWS. Le gusta trabajar con clientes que buscan crear cargas de trabajo resilientes y bases de datos sólidas en la nube. Aporta experiencia trabajando con empresas en iniciativas de modernización, análisis y transformación de datos.
Varma Gottmukkala es un arquitecto senior de soluciones especializado en bases de datos en AWS con sede en Dallas Fort Worth. Varma trabaja con los clientes en su estrategia de base de datos y diseña sus cargas de trabajo utilizando bases de datos especialmente diseñadas por AWS. Antes de unirse a AWS, trabajó extensamente con bases de datos relacionales, bases de datos NOSQL y múltiples lenguajes de programación durante los últimos 22 años.