En el mundo actual que cambia rápidamente, monitorear la salud de la vegetación de nuestro planeta es más crítico que nunca. La vegetación desempeña un papel crucial en el mantenimiento del equilibrio ecológico, proporcionando sustento y actuando como sumidero de carbono. Tradicionalmente, monitorear la salud de la vegetación ha sido una tarea desalentadora. Métodos como los estudios de campo y el análisis manual de datos satelitales no sólo requieren mucho tiempo, sino que también requieren importantes recursos y experiencia en el campo. Estos enfoques tradicionales son engorrosos. Esto a menudo provoca retrasos en la recopilación y el análisis de datos, lo que dificulta el seguimiento y la respuesta rápida a los cambios ambientales. Además, los altos costos asociados con estos métodos limitan su accesibilidad y frecuencia, lo que dificulta los esfuerzos integrales y continuos de monitoreo global de la vegetación a escala planetaria. A la luz de estos desafíos, hemos desarrollado una solución innovadora para agilizar y mejorar la eficiencia de los procesos de monitoreo de la vegetación a escala global.
Al pasar de los métodos tradicionales y laboriosos de monitorear la salud de la vegetación, las capacidades geoespaciales de amazon SageMaker ofrecen una solución optimizada y rentable. amazon SageMaker admite capacidades de aprendizaje automático (ML) geoespacial, lo que permite a los científicos de datos y a los ingenieros de ML crear, entrenar e implementar modelos de ML utilizando datos geoespaciales. Estas capacidades geoespaciales abren un nuevo mundo de posibilidades para el monitoreo ambiental. Con SageMaker, los usuarios pueden acceder a una amplia gama de conjuntos de datos geoespaciales, procesar y enriquecer estos datos de manera eficiente y acelerar sus cronogramas de desarrollo. Las tareas que antes llevaban días o incluso semanas realizar ahora se pueden realizar en una fracción del tiempo.
En esta publicación, demostramos el poder de las capacidades geoespaciales de SageMaker al mapear la vegetación del mundo en menos de 20 minutos. Este ejemplo no solo destaca la eficiencia de SageMaker, sino también su impacto en la forma en que se puede utilizar el aprendizaje automático geoespacial para monitorear el medio ambiente con fines de sostenibilidad y conservación.
Identificar áreas de interés.
Comenzamos ilustrando cómo se puede aplicar SageMaker para analizar datos geoespaciales a escala global. Para comenzar, seguimos los pasos descritos en Introducción a las capacidades geoespaciales de amazon SageMaker. Comenzamos con la especificación de las coordenadas geográficas que definen un cuadro delimitador que cubre las áreas de interés. Este cuadro delimitador actúa como un filtro para seleccionar solo las imágenes de satélite relevantes que cubren las masas terrestres de la Tierra.
Adquisición de datos
Las capacidades geoespaciales de SageMaker brindan acceso a una amplia gama de conjuntos de datos geoespaciales públicos, incluidos Centinela-2, satélite 8, Copérnico DEMy NAIP. Para nuestro proyecto de mapeo de vegetación, hemos seleccionado Sentinel-2 por su cobertura global y frecuencia de actualización. El satélite Sentinel-2 captura imágenes de la superficie terrestre con una resolución de 10 metros cada 5 días. En este ejemplo, elegimos la primera semana de diciembre de 2023. Para asegurarnos de cubrir la mayor parte de la superficie terrestre visible, filtramos imágenes con menos del 10% de cobertura de nubes. De esta manera, nuestro análisis se basa en imágenes claras y confiables.
Al utilizar el search_raster_data_collection
Con la función geoespacial de SageMaker, identificamos 8581 imágenes únicas de Sentinel-2 tomadas en la primera semana de diciembre de 2023. Para validar la precisión de nuestra selección, trazamos las huellas de estas imágenes en un mapa, confirmando que teníamos las imágenes correctas para nuestra análisis.
Trabajos de procesamiento geoespacial de SageMaker
Al consultar datos con las capacidades geoespaciales de SageMaker, recibimos detalles completos sobre nuestras imágenes de destino, incluida la huella de los datos, las propiedades alrededor de las bandas espectrales y los hipervínculos para acceso directo. Con estos hipervínculos, podemos evitar los métodos tradicionales de memoria y almacenamiento intensivos para descargar primero y posteriormente procesar imágenes localmente, una tarea que se vuelve aún más abrumadora por el tamaño y la escala de nuestro conjunto de datos, que abarca más de 4 TB. Cada una de las 8.000 imágenes es de gran tamaño, tiene múltiples canales y tiene un tamaño individual de aproximadamente 500 MB. Procesar varios terabytes de datos en una sola máquina llevaría un tiempo prohibitivo. Aunque la creación de un clúster de procesamiento es una alternativa, introduce su propio conjunto de complejidades, desde la distribución de datos hasta la gestión de la infraestructura. SageMaker geoespacial simplifica esto con Procesamiento de amazon SageMaker. Usamos el contenedor geoespacial especialmente diseñado con trabajos de procesamiento de SageMaker para brindar una experiencia administrada y simplificada para crear y ejecutar un clúster. Con solo unas pocas líneas de código, puede ampliar sus cargas de trabajo geoespaciales con trabajos de procesamiento de SageMaker. Simplemente especifica un script que define su carga de trabajo, la ubicación de sus datos geoespaciales en amazon Simple Storage Service (amazon S3) y el contenedor geoespacial. SageMaker Processing proporciona recursos de clúster para que usted ejecute cargas de trabajo de aprendizaje automático geoespaciales a escala de ciudad, país o continente.
Para nuestro proyecto, utilizamos 25 clústeres, cada uno de los cuales consta de 20 instancias, para ampliar nuestra carga de trabajo geoespacial. A continuación, dividimos las 8581 imágenes en 25 lotes para un procesamiento eficiente. Cada lote contiene aproximadamente 340 imágenes. Luego, estos lotes se distribuyen uniformemente entre las máquinas de un clúster. Todos los manifiestos por lotes se cargan en amazon S3, listos para el trabajo de procesamiento, de modo que cada segmento se procesa de manera rápida y eficiente.
Con nuestros datos de entrada listos, ahora pasamos al análisis central que revelará información sobre la salud de la vegetación a través del Índice de Vegetación de Diferencia Normalizada (NDVI). El NDVI se calcula a partir de la diferencia entre las reflectancias del infrarrojo cercano (NIR) y del rojo, normalizadas por su suma, lo que produce valores que oscilan entre -1 y 1. Los valores de NDVI más altos indican vegetación densa y saludable, un valor de cero indica que no hay vegetación y los valores negativos suelen indicar masas de agua. Este índice sirve como una herramienta crítica para evaluar la salud y distribución de la vegetación. El siguiente es un ejemplo de cómo se ve el NDVI.
Ahora que tenemos la lógica informática definida, estamos listos para iniciar el trabajo de procesamiento geoespacial de SageMaker. Esto implica un proceso sencillo de tres pasos: configurar el clúster de cómputo, definir los detalles de cómputo y organizar los detalles de entrada y salida.
Primero, para configurar el clúster, decidimos la cantidad y el tipo de instancias necesarias para el trabajo, asegurándonos de que sean adecuadas para el procesamiento de datos geoespaciales. El entorno informático en sí se prepara seleccionando una imagen geoespacial que viene con todos los paquetes utilizados comúnmente para procesar datos geoespaciales.
A continuación, para la entrada, utilizamos el manifiesto creado previamente que enumera todos los hipervínculos de imágenes. También designamos una ubicación S3 para guardar nuestros resultados.
Con estos elementos configurados, podemos iniciar múltiples trabajos de procesamiento a la vez, lo que les permite operar simultáneamente para lograr eficiencia.
Después de iniciar el trabajo, SageMaker activa automáticamente las instancias requeridas y configura el clúster para procesar las imágenes enumeradas en su manifiesto de entrada. Toda esta configuración funciona a la perfección, sin necesidad de una gestión práctica. Para monitorear y administrar los trabajos de procesamiento, puede usar la consola de SageMaker. Ofrece actualizaciones en tiempo real sobre el estado y la finalización de sus tareas de procesamiento. En nuestro ejemplo, tomó menos de 20 minutos procesar las 8581 imágenes con 500 instancias. La escalabilidad de SageMaker permite tiempos de procesamiento más rápidos si es necesario, simplemente aumentando el número de instancias.
Conclusión
El poder y la eficiencia de las capacidades geoespaciales de SageMaker han abierto nuevas puertas para el monitoreo ambiental, particularmente en el ámbito del mapeo de vegetación. A través de este ejemplo, mostramos cómo procesar más de 8500 imágenes de satélite en menos de 20 minutos. No solo demostramos la viabilidad técnica, sino que también mostramos las ganancias de eficiencia derivadas del uso de la nube para el análisis ambiental. Este enfoque ilustra un salto significativo de los métodos tradicionales que requieren muchos recursos a un enfoque más ágil, escalable y rentable. La flexibilidad para ampliar o reducir los recursos de procesamiento según sea necesario, combinada con la facilidad de acceder y analizar grandes conjuntos de datos, posiciona a SageMaker como una herramienta transformadora en el campo del análisis geoespacial. Al simplificar las complejidades asociadas con el procesamiento de datos a gran escala, SageMaker permite a los científicos, investigadores y partes interesadas de las empresas centrarse más en obtener conocimientos y menos en la infraestructura y la gestión de datos.
De cara al futuro, la integración del aprendizaje automático y el análisis geoespacial promete mejorar aún más nuestra comprensión de los sistemas ecológicos del planeta. El potencial para monitorear los cambios en tiempo real, predecir tendencias futuras y responder con decisiones más informadas puede contribuir significativamente a los esfuerzos de conservación global. Este ejemplo de mapeo de vegetación es solo el comienzo para ejecutar ML a escala planetaria. Consulte Capacidades geoespaciales de amazon SageMaker para obtener más información.
Sobre el autor
Xiong Zhou es científico aplicado sénior en AWS. Dirige el equipo científico de capacidades geoespaciales de amazon SageMaker. Su área actual de investigación incluye evaluación LLM y generación de datos. En su tiempo libre le gusta correr, jugar baloncesto y pasar tiempo con su familia.
Anirudh Viswanathan es Gerente de Producto Sr, Servicios Técnicos Externos con el equipo de ML geoespacial de SageMaker. Tiene una Maestría en Robótica de la Universidad Carnegie Mellon, un MBA de la Wharton School of Business y es nombrado inventor de más de 40 patentes. Le gustan las carreras de larga distancia, visitar galerías de arte y espectáculos de Broadway.
Janosch Woschitz es arquitecto de soluciones senior en AWS, especializado en ai/ML. Con más de 15 años de experiencia, ayuda a clientes de todo el mundo a aprovechar la IA y el aprendizaje automático para obtener soluciones innovadoras y crear plataformas de aprendizaje automático en AWS. Su experiencia abarca el aprendizaje automático, la ingeniería de datos y los sistemas distribuidos escalables, complementados con una sólida experiencia en ingeniería de software y experiencia en la industria en dominios como la conducción autónoma.
Él lo deambula es el gerente de ciencias aplicadas de humain-in-the-loop Services, AWS ai, amazon. Sus intereses de investigación son el aprendizaje profundo en 3D y el aprendizaje de representación de visión y lenguaje. Anteriormente, fue científico senior en Alexa ai, jefe de aprendizaje automático en Scale ai y científico jefe en Pony.ai. Antes de eso, estuvo en el equipo de percepción de Uber ATG y en el equipo de plataforma de aprendizaje automático de Uber trabajando en aprendizaje automático para conducción autónoma, sistemas de aprendizaje automático e iniciativas estratégicas de IA. Comenzó su carrera en Bell Labs y fue profesor adjunto en la Universidad de Columbia. Co-impartió tutoriales en ICML'17 e ICCV'19, y coorganizó varios talleres en NeurIPS, ICML, CVPR, ICCV sobre aprendizaje automático para conducción autónoma, visión 3D y robótica, sistemas de aprendizaje automático y aprendizaje automático adversario. Tiene un doctorado en informática en la Universidad de Cornell. Es miembro de ACM y miembro de IEEE.
Amit Modi es el líder de productos para SageMaker MLOps, ML Governance e IA responsable en AWS. Con más de una década de experiencia B2B, crea productos y equipos escalables que impulsan la innovación y ofrecen valor a los clientes de todo el mundo.
Kris Efland es un líder tecnológico visionario con una trayectoria exitosa en impulsar la innovación y el crecimiento de productos durante más de 20 años. Kris ha ayudado a crear nuevos productos, incluidos productos electrónicos de consumo y software empresarial, en muchas industrias, tanto en nuevas empresas como en grandes empresas. En su puesto actual en amazon Web Services (AWS), Kris lidera la categoría Geoespacial ai/ML. Trabaja a la vanguardia del servicio de aprendizaje automático de más rápido crecimiento de amazon, amazon SageMaker, que presta servicios a más de 100.000 clientes en todo el mundo. Recientemente dirigió el lanzamiento de las nuevas capacidades geoespaciales de amazon SageMaker, un potente conjunto de herramientas que permiten a los científicos de datos y a los ingenieros de aprendizaje automático crear, entrenar e implementar modelos de aprendizaje automático utilizando imágenes satelitales, mapas y datos de ubicación. Antes de unirse a AWS, Kris fue jefe de herramientas de vehículos autónomos (AV) y mapas AV de Lyft, donde dirigió los esfuerzos de mapeo autónomo de la compañía y la cadena de herramientas utilizadas para construir y operar la flota de vehículos autónomos de Lyft. También se desempeñó como Director de Ingeniería en HERE Technologies y Nokia y ha cofundado varias empresas emergentes.