Los datos son la base de los algoritmos de aprendizaje automático (ML). Uno de los formatos más comunes para almacenar grandes cantidades de datos es Apache Parquet debido a su formato compacto y altamente eficiente. Esto significa que los analistas de negocios que desean extraer información de los grandes volúmenes de datos en su almacén de datos deben utilizar con frecuencia los datos almacenados en Parquet.
Para simplificar el acceso a los archivos de Parquet, Amazon SageMaker Canvas ha agregado capacidades de importación de datos de más de 40 fuentes de datos, incluido Amazon Athena, que admite Apache Parquet.
Canvas proporciona conectores a las fuentes de datos de AWS, como Amazon Simple Storage Service (Amazon S3), Athena y Amazon Redshift. En esta publicación, describimos cómo consultar archivos de Parquet con Athena usando AWS Lake Formation y usar el Canvas de salida para entrenar un modelo.
Descripción general de la solución
Athena es un servicio de análisis interactivo sin servidor basado en marcos de código abierto que admite formatos abiertos de tablas y archivos. Muchos equipos recurren a Athena para habilitar consultas interactivas y analizar sus datos en los respectivos almacenes de datos sin crear múltiples copias de datos.
Athena permite que las aplicaciones utilicen SQL estándar para consultar grandes cantidades de datos en un lago de datos S3. Athena admite varios formatos de datos, incluidos:
- CSV
- TSV
- JSON
- archivos de texto
- Formatos en columnas de código abierto, como ORC y Parquet
- Datos comprimidos en formatos Snappy, Zlib, LZO y GZIP
Archivos de parquet organice los datos en columnas y utilice esquemas de codificación y compresión de datos eficientes para un rápido almacenamiento y recuperación de datos. Puede reducir el tiempo de importación en Canvas utilizando archivos Parquet para importaciones masivas de datos y con columnas específicas.
Lake Formation es un servicio de lago de datos integrado que facilita la ingesta, limpieza, catalogación, transformación y protección de sus datos y los pone a disposición para análisis y ML. Lake Formation administra automáticamente el acceso a los datos registrados en Amazon S3 a través de servicios que incluyen AWS Glue, Athena, Amazon Redshift, Amazon QuickSight y Amazon EMR utilizando notebooks Zeppelin con Apache Spark para garantizar el cumplimiento de sus políticas definidas.
En esta publicación, le mostramos cómo importar datos de Parquet a Canvas desde Athena, donde Lake Formation permite el control de datos.
Para ilustrar, usamos los datos de operaciones de un negocio de electrónica de consumo. Creamos un modelo para estimar la demanda de productos electrónicos utilizando sus datos históricos de series temporales.
Esta solución se ilustra en tres pasos:
- Establece la Formación del Lago.
- Otorgue permisos de acceso a Lake Formation a Canvas.
- Importe los datos de Parquet a Canvas usando Athena.
- Utilice los datos de Parquet importados para crear modelos ML con Canvas.
El siguiente diagrama ilustra la arquitectura de la solución.
Configurar la base de datos de Lake Formation
Los pasos enumerados aquí forman una configuración única para mostrarle el lago de datos que aloja los datos de Parquet, que sus analistas pueden consumir para obtener información utilizando Canvas. Tanto los ingenieros como los administradores de la nube pueden realizar mejor estos requisitos previos. Los analistas pueden ir directamente a Canvas e importar los datos de Athena.
Los datos utilizados en esta publicación consisten en dos conjuntos de datos provenientes de Amazon S3. Estos conjuntos de datos se han generado sintéticamente para esta publicación.
- Serie temporal objetivo (TTS) de productos electrónicos de consumo – Los datos históricos de la cantidad a pronosticar se denominan Target Time Series (TTS). En este caso, es la demanda de un artículo.
- Serie temporal relacionada con la electrónica de consumo (RTS) – Otros datos históricos que se conocen exactamente al mismo tiempo que cada transacción de venta se denominan Series de Tiempo Relacionadas (RTS). En nuestro caso de uso, es el precio de un artículo. Un conjunto de datos de RTS incluye datos de series temporales que no están incluidos en un conjunto de datos de TTS y podría mejorar la precisión de su predictor.
- Cargue datos a Amazon S3 como archivos Parquet desde estas dos carpetas:
- ce-rts – Contiene series temporales relacionadas con la electrónica de consumo (RTS).
- ce-tts – Contiene series temporales objetivo (TTS) de productos electrónicos de consumo.
- Cree un lago de datos con Lake Formation.
- En la consola de Lake Formation, cree una base de datos llamada
consumer-electronics
.
- Cree dos tablas para el conjunto de datos de electrónica de consumo con los nombres
ce-rts-Parquet
yce-tts-Parquet
con los datos obtenidos del depósito S3.
Usamos la base de datos que creamos en este paso en un paso posterior para importar los datos de Parquet a Canvas usando Athena.
Otorgar permisos de acceso de Lake Formation a Canvas
Esta es una configuración única que deben realizar los ingenieros o administradores de la nube.
- Otorgue permisos de lago de datos para acceder a Canvas para acceder a los datos de Parquet de electrónica de consumo.
- En el dominio de SageMaker Studio, vea los detalles del usuario de Canvas.
- Copie el nombre del rol de ejecución.
- Asegúrese de que el rol de ejecución tenga suficientes permisos para acceder a los siguientes servicios:
- Lienzo.
- El depósito de S3 donde se almacenan los datos de Parquet.
- Athena para conectarse desde Canvas.
- AWS Glue para acceder a los datos de Parquet mediante el conector de Athena.
- En Formación de lago, elija Permisos de lago de datos en el panel de navegación.
- Elegir Conceder.
- Para directoresseleccionar Usuarios y roles de IAM para proporcionar acceso a Canvas a sus artefactos de datos.
- Especifique la función de ejecución de su usuario de dominio de SageMaker Studio.
- Especifique la base de datos y las tablas.
- Elegir Conceder.
Puede otorgar acciones granulares en las tablas, columnas y datos. Esta opción proporciona una configuración de acceso granular de sus datos confidenciales mediante la segregación de roles que ha definido.
Después de configurar el entorno requerido para la integración de Canvas y Athena, continúe con el siguiente paso para importar los datos a Canvas usando Athena.
Importar datos usando Athena
Complete los siguientes pasos para importar los archivos Parquet administrados por Lake Formation:
- En Canvas, elija conjuntos de datos en el panel de navegación.
- Elegir + Importar para importar los conjuntos de datos de Parquet administrados por Lake Formation.
- Elegir Atenea como fuente de datos.
- Elegir el
consumer-electronics
conjunto de datos en formato Parquet del catálogo de datos de Athena y detalles de la tabla en el menú. - Importe los dos conjuntos de datos. Arrastre y suelte la fuente de datos para seleccionar la primera.
Cuando arrastra y suelta el conjunto de datos, la vista previa de los datos aparece en el marco inferior de la página.
- Elegir Datos de importacion.
- Ingresar
consumer-electronics-rts
como el nombre del conjunto de datos que está importando.
La importación de datos lleva tiempo según el tamaño de los datos. El conjunto de datos de este ejemplo es pequeño, por lo que la importación tarda unos segundos. Cuando se completa la importación de datos, el estado cambia de Procesando a Listo.
- Repita el proceso de importación para el segundo conjunto de datos (
ce-tts
).
Cuando el ce-tts
Los datos del parquet se importan, el conjuntos de datos pageshow ambos conjuntos de datos.
Los conjuntos de datos importados contienen datos de series temporales específicos y relacionados. El conjunto de datos RTS puede ayudar a los modelos de aprendizaje profundo a mejorar la precisión de los pronósticos.
Unamos los conjuntos de datos para prepararnos para nuestro análisis.
- Seleccione los conjuntos de datos.
- Elegir unir datos.
- Seleccione y arrastre ambos conjuntos de datos al panel central, que aplica una unión interna.
- Elegir el Unirse para ver las condiciones de unión aplicadas y para asegurarse de que se aplica la unión interna y se unen las columnas correctas.
- Elegir Guardar cerrar para aplicar la condición de unión.
- Proporcione un nombre para el conjunto de datos unido.
- Elegir Datos de importacion.
Los datos unidos se importan y crean como un nuevo conjunto de datos. El origen del conjunto de datos unido se muestra como Unirse.
Use los datos de Parquet para construir modelos ML con Canvas
Los datos de Parquet de Lake Formation ahora están disponibles en Canvas. Ahora puede ejecutar su análisis ML en los datos.
- Elegir Crear un modelo personalizado en Modelos listos para usar de Canvas después de importar con éxito los datos.
- Introduzca un nombre para el modelo.
- Seleccione su tipo de problema (para esta publicación, Análisis predictivo).
- Elegir Crear.
- Selecciona el
consumer-electronic-joined
conjunto de datos para entrenar el modelo para predecir la demanda de artículos electrónicos.
- Seleccione la demanda como la columna de destino para pronosticar la demanda de artículos electrónicos de consumo.
Con base en los datos proporcionados a Canvas, el Tipo de modelo se deriva automáticamente como Pronóstico de series de tiempo y proporciona un Configurar modelo de serie temporal opción.
- Elegir el Configurar modelo de serie temporal enlace para proporcionar opciones de modelos de series temporales.
- Ingrese las configuraciones de pronóstico como se muestra en la siguiente captura de pantalla.
- Excluir columna de grupo porque no se ejecuta ninguna agrupación lógica para el conjunto de datos.
Para construir el modelo, Canvas ofrece dos opciones de construcción. Elija la opción según su preferencia. La compilación rápida generalmente toma alrededor de 15 a 20 minutos, mientras que la versión estándar toma alrededor de 4 horas.
-
- Construcción rápida – Construye un modelo en una fracción del tiempo en comparación con una construcción estándar; la precisión potencial se cambia por la velocidad
- Construcción estándar – Crea el mejor modelo a partir de un proceso optimizado impulsado por AutoML; la velocidad se cambia por la mayor precisión
- Para esta publicación, elegimos Construcción rápida con fines ilustrativos.
Cuando se completa la compilación rápida, las métricas de evaluación del modelo se presentan en el Analizar sección.
- Elegir Predecir para ejecutar una predicción única o una predicción por lotes.
Limpiar
Cierre sesión en Canvas para evitar cargos futuros.
Conclusión
Las empresas tienen datos en lagos de datos en varios formatos, incluido el formato Parquet altamente eficiente. Canvas ha lanzado más de 40 fuentes de datos, incluida Athena, desde la cual puede extraer fácilmente datos en varios formatos de lagos de datos. Para obtener más información, consulte Importación de datos de más de 40 fuentes de datos para el aprendizaje automático sin código con Amazon SageMaker Canvas.
En esta publicación, tomamos archivos de Parquet administrados por Lake Formation y los importamos a Canvas usando Athena. El modelo Canvas ML pronosticó la demanda de productos electrónicos de consumo utilizando datos históricos de demanda y precios. Gracias a una interfaz fácil de usar y visualizaciones vívidas, completamos esto sin escribir una sola línea de código. Canvas ahora permite a los analistas comerciales usar archivos Parquet de equipos de ingeniería de datos y crear modelos ML, realizar análisis y extraer información independientemente de los equipos de ciencia de datos.
Para obtener más información sobre Canvas, consulte Predecir tipos de fallas de máquinas con aprendizaje automático sin código usando Canvas. Consulte Anuncio de Amazon SageMaker Canvas: una capacidad de aprendizaje automático visual y sin código para analistas de negocios para obtener más información sobre la creación de modelos de aprendizaje automático con una solución sin código.
Sobre los autores
gopi mudiyala es gerente técnico sénior de cuentas en AWS. Ayuda a los clientes de la industria de servicios financieros con sus operaciones en AWS. Como entusiasta del aprendizaje automático, Gopi trabaja para ayudar a los clientes a tener éxito en su proceso de aprendizaje automático. En su tiempo libre le gusta jugar bádminton, pasar tiempo con la familia y viajar.
Hariharan Suresh es arquitecto sénior de soluciones en AWS. Le apasionan las bases de datos, el aprendizaje automático y el diseño de soluciones innovadoras. Antes de unirse a AWS, Hariharan fue arquitecto de productos, especialista en implementación de banca central y desarrollador, y trabajó con organizaciones BFSI durante más de 11 años. Fuera de la tecnología, disfruta del parapente y el ciclismo.