Habilitación de una IA generativa de nivel de producción: nuevas capacidades que reducen los costos, agilizan la producción y mejoran la seguridad

A medida que la IA generativa pasa de las pruebas de concepto (POC) a la producción, estamos viendo un cambio enorme en la forma en que las empresas y los consumidores interactúan con los datos, la información y entre sí. En lo que consideramos el “Acto 1” de la historia de la IA generativa, vimos cómo cantidades de datos y cálculos inimaginables creaban modelos que mostraban el poder de la IA generativa. El año pasado, muchas empresas, e incluso más personas, se centraron en el aprendizaje y la experimentación, y la gran cantidad de POC fue impresionante. Miles de clientes, en diversas industrias, realizaron experimentos que iban desde docenas hasta cientos de experimentos mientras exploraban el potencial de las aplicaciones de la IA generativa y sus implicaciones.

A principios de 2024, comenzaremos a ver el inicio del “Acto 2”, en el que muchas pruebas de concepto evolucionan hacia la producción y generan un valor comercial significativo. Para obtener más información sobre el Acto 1 y el Acto 2, consulte ai/act-2-in-gen-ai-lets-get-ready-now/”>¿Estamos preparados para el “Acto 2” de la generación de IA?El cambio hacia una mentalidad de producción centra la atención en los desafíos clave a medida que las empresas crean y evalúan modelos para tareas específicas y buscan las opciones más eficientes, rápidas y rentables. Considerar (y reducir) la inversión necesaria para las cargas de trabajo de producción significa aportar nueva eficiencia al proceso, a veces complicado, de crear, probar y ajustar los modelos de base (FM).

Ofrecer capacidades que aumenten la eficiencia y reduzcan los costos

Ofrecer múltiples puntos de entrada a su recorrido de IA generativa es fundamental para aportar valor a las empresas que trasladan sus aplicaciones de IA generativa a la producción. Nuestra pila de tecnología de IA generativa proporciona los servicios y las capacidades necesarias para crear y escalar aplicaciones de IA generativa, desde amazon Q (el asistente con más capacidad de IA generativa para acelerar el desarrollo de software) en la capa superior hasta amazon Bedrock (la forma más sencilla de crear y escalar aplicaciones de IA generativa con modelos de base) en la capa intermedia hasta amazon SageMaker (diseñado específicamente para ayudarlo a crear, capacitar e implementar FM) en la capa inferior y fundamental. Si bien estas capas proporcionan diferentes puntos de entrada, la verdad fundamental es que cada recorrido de IA generativa comienza en la capa inferior fundamental.

Las organizaciones que desean crear sus propios modelos o desean un control granular eligen amazon Web Services (AWS) porque ayudamos a los clientes a usar la nube de manera más eficiente y a aprovechar las capacidades de AWS más potentes y rentables, como la capacidad de red a escala de petabytes, la agrupación en clústeres a gran escala y las herramientas adecuadas para ayudarlo a desarrollar. Nuestra profunda inversión en esta capa mejora las capacidades y la eficiencia de los servicios que brindamos en capas superiores.

Para que los casos de uso de IA generativa sean económicos, es necesario ejecutar el entrenamiento y la inferencia en una infraestructura de alto rendimiento y rentable diseñada específicamente para IA. amazon SageMaker facilita la optimización en cada paso del ciclo de vida del modelo, ya sea que esté construyendo, entrenando o implementando. Sin embargo, el entrenamiento y la inferencia de FM presentan desafíos, incluida la carga operativa, el costo general y el retraso en el rendimiento que contribuye a una experiencia de usuario general deficiente. Los modelos de IA generativa de última generación tienen latencias promedio del orden de segundos, y muchos de los modelos masivos actuales son demasiado grandes para caber en una sola instancia.

Además, el ritmo vertiginoso de las innovaciones en optimización de modelos deja a los desarrolladores de modelos con meses de investigación para aprender e implementar estas técnicas, incluso antes de finalizar las configuraciones de implementación.

Presentación de amazon Elastic Kubernetes Service (amazon EKS) en amazon SageMaker HyperPod

Al reconocer estos desafíos, AWS lanzó amazon SageMaker HyperPod el año pasado. Para llevar la eficiencia un paso más allá, a principios de esta semana, anunciamos el lanzamiento de la compatibilidad con amazon EKS en amazon SageMaker HyperPod. ¿Por qué? Porque el aprovisionamiento y la gestión de los grandes clústeres de GPU necesarios para la IA pueden representar una carga operativa significativa. Y las ejecuciones de entrenamiento que tardan semanas en completarse son un desafío, ya que una sola falla puede descarrilar todo el proceso. Garantizar la estabilidad de la infraestructura y optimizar el rendimiento de las cargas de trabajo de entrenamiento distribuidas también pueden plantear desafíos.

amazon SageMaker HyperPod ofrece un servicio totalmente administrado que elimina la carga operativa y permite a las empresas acelerar el desarrollo de FM a una escala sin precedentes. Ahora, la compatibilidad con amazon EKS en amazon SageMaker HyperPod permite a los desarrolladores administrar sus clústeres de SageMaker HyperPod mediante amazon EKS. Los desarrolladores pueden usar una interfaz familiar de Kubernetes y, al mismo tiempo, eliminar el trabajo pesado indiferenciado que implica configurar y optimizar estos clústeres para el desarrollo de modelos de IA generativa a escala. SageMaker HyperPod ofrece un entorno altamente resistente que detecta, diagnostica y se recupera automáticamente de las fallas de la infraestructura subyacente para que los desarrolladores puedan entrenar a los FM durante semanas o meses seguidos con una interrupción mínima.

Cita de cliente: Articul8 ai

“amazon SageMaker HyperPod nos ha ayudado enormemente a gestionar y operar nuestros recursos informáticos de forma más eficiente y con un tiempo de inactividad mínimo. Fuimos de los primeros en adoptar el servicio SageMaker HyperPod basado en Slurm y nos hemos beneficiado de sus características de facilidad de uso y resiliencia, lo que dio como resultado una mejora de la productividad de hasta un 35 % y una rápida ampliación de nuestras operaciones de inteligencia artificial.

Como empresa de Kubernetes, ahora estamos encantados de dar la bienvenida al lanzamiento de la compatibilidad de amazon EKS con SageMaker HyperPod. Esto es un cambio radical para nosotros porque se integra perfectamente con nuestros procesos de capacitación existentes y nos facilita aún más la gestión y el funcionamiento de nuestros clústeres de Kubernetes a gran escala. Además, esto también ayuda a nuestros clientes finales porque ahora podemos empaquetar y convertir en producto esta capacidad en nuestra plataforma de inteligencia artificial gen, lo que permite a nuestros clientes ejecutar su propia capacitación y ajustar las cargas de trabajo de una manera más optimizada”.

– Arun Subramaniyan, fundador y director ejecutivo de Articul8 ai

Aportando nueva eficiencia a la inferencia

Incluso con los últimos avances en el modelado de IA generativa, la fase de inferencia sigue siendo un importante obstáculo. Creemos que las empresas que crean aplicaciones de IA generativa orientadas al cliente o al consumidor no deberían tener que sacrificar el rendimiento por la rentabilidad. Deberían poder conseguir ambos. Por eso, hace dos meses, lanzamos la Kit de herramientas de optimización de inferencias en amazon SageMakeauna solución totalmente administrada que proporciona las últimas técnicas de optimización de modelos, como decodificación especulativa, compilación y cuantificación. Disponible en SageMaker, este kit de herramientas ofrece un menú simple de las últimas técnicas de optimización que se pueden usar de forma individual o en conjunto para crear una “receta de optimización”. Gracias al fácil acceso e implementación de estas técnicas, los clientes pueden lograr un rendimiento hasta aproximadamente el doble y, al mismo tiempo, reducir los costos en aproximadamente un 50 % para la inferencia de IA generativa.

Implementación de un modelo responsable, seguro y confiable

Si bien el costo y el rendimiento son cuestiones fundamentales, es importante no perder de vista otras preocupaciones que surgen a medida que pasamos de la prueba de concepto a la producción. Independientemente del modelo que elija, debe implementarse de manera segura, confiable y responsable. Todos debemos poder aprovechar todo el potencial de la IA generativa y, al mismo tiempo, mitigar sus riesgos. Debería ser fácil implementar salvaguardas para sus aplicaciones de IA generativa, personalizadas según sus requisitos y políticas de IA responsables.

Por eso construimos La roca madre del Amazonas Barandillasun servicio que ofrece protecciones personalizables para que puedas filtrar mensajes y modelar respuestas. Guardrails puede ayudar a bloquear palabras o temas específicos. Además, los clientes pueden usar Guardrails para ayudar a identificar y evitar que contenido restringido llegue a los usuarios finales.

También contamos con filtros para contenido dañino e información personal identificable (PII) y controles de seguridad para indicaciones maliciosas, como inyecciones de indicaciones. Recientemente, también desarrollamos medidas de seguridad para ayudar a reducir las alucinaciones al verificar que las respuestas se encuentren en el material de origen y estén relacionadas con la consulta.

Aportando valor con innovación que cambia las reglas del juego

Nuestra asociación con la NFL y nuestro programa conjunto Next Gen Stats ofrecen una prueba impresionante de cómo una mentalidad de producción está generando un valor real no solo para una organización, sino para personas de todo el mundo. Al usar las herramientas e ingenieros de inteligencia artificial de AWS, la NFL está llevando el análisis de placajes al siguiente nivel, brindando a los equipos, presentadores y fanáticos información más detallada sobre una de las habilidades más cruciales del fútbol americano: placajes. Como saben los fanáticos, placajes son un proceso complejo y en evolución que se desarrolla a lo largo de cada jugada. Pero las estadísticas tradicionales solo cuentan una parte de la historia. Es por eso que la NFL y AWS crearon Tackle Probability, una métrica innovadora impulsada por inteligencia artificial que puede identificar una placaje fallido, cuándo y dónde se produjo ese intento de placaje, y hacerlo todo en tiempo real. Para obtener más detalles, visite NFL en AWS.

Para crear esta estadística se necesitaron cinco años de datos históricos para entrenar un modelo de IA en amazon SageMaker capaz de procesar millones de puntos de datos por partido y hacer un seguimiento de 20 características diferentes de cada uno de los 11 defensores cada décima de segundo. El resultado es una estadística que literalmente cambia el juego y que proporciona información sin precedentes. Ahora la NFL puede cuantificar la eficiencia de los placajes de maneras que nunca antes habían sido posibles. A un defensor se le pueden atribuir 15 intentos de placaje en un partido sin fallar ni un solo intento, o podemos medir cuántos placajes fallidos forzó un corredor. En total, habrá al menos 10 estadísticas nuevas de este modelo.

En la NFL, los entrenadores ahora pueden cuantificar la eficiencia de los placajes e identificar a los jugadores que siempre se colocan en la posición correcta para realizar la jugada. Y los locutores pueden destacar los placajes fallidos o realizados para los fanáticos en tiempo real.

Creando avances con AWS

La NFL no es la única que está utilizando AWS para cambiar su enfoque de la prueba de concepto a la producción. Empresas emergentes interesantes como Evolutionary Scale están facilitando la generación de nuevas proteínas y anticuerpos. Airtable está facilitando a sus clientes el uso de sus datos y la creación de aplicaciones. Y organizaciones como Slack están incorporando IA generativa en la jornada laboral. Las empresas emergentes de rápido movimiento y éxito están eligiendo AWS para construir y acelerar sus negocios. De hecho, el 96 por ciento de todos los unicornios de IA/ML, y el 90 por ciento de los que se prevé que se lancen en 2024, están utilizando AWS. Forbes ai 50—son clientes de AWS.

¿Por qué? Porque estamos abordando los problemas de costo, rendimiento y seguridad que permiten las aplicaciones de IA generativa de nivel de producción. Estamos brindando a los científicos de datos, ingenieros de ML y otros desarrolladores nuevas capacidades que hacen que el desarrollo de IA generativa sea más rápido, más fácil, más seguro y menos costoso. Estamos poniendo a disposición de más organizaciones la creación y el ajuste de FM (y una cartera de herramientas intuitivas que lo hacen posible) como parte de nuestro compromiso continuo con la democratización de la IA generativa.

Impulsando la próxima ola de innovación

Optimizar los costos, aumentar la eficiencia de la producción y garantizar la seguridad: estos son algunos de los principales desafíos a medida que la IA generativa evoluciona desde la producción de POC. Estamos ayudando a abordar estos problemas agregando nuevas capacidades innovadoras a amazon SageMaker, amazon Bedrock y más. Y estamos reduciendo las barreras de entrada al poner estas herramientas a disposición de todos, desde grandes empresas con equipos de ML hasta pequeñas empresas y desarrolladores individuales que recién comienzan. Empoderar a más personas y organizaciones para que experimenten con la IA generativa crea una explosión de nuevos casos de uso y aplicaciones creativas. Eso es exactamente lo que estamos viendo a medida que la IA generativa continúa su rápida evolución desde una tecnología fascinante a una realidad cotidiana: mejora las experiencias, inspira la innovación, impulsa la ventaja competitiva y crea un nuevo valor significativo.

Acerca del autor

Baskar Sridharan es el vicepresidente de IA/ML y Servicios e Infraestructura de Datos, donde supervisa la dirección estratégica y el desarrollo de servicios clave, incluidos Bedrock, SageMaker y plataformas de datos esenciales como EMR, Athena y Glue.

Antes de ocupar su puesto actual, Baskar trabajó durante casi seis años en Google, donde contribuyó a los avances en la infraestructura de computación en la nube. Antes de eso, trabajó durante 16 años en Microsoft, donde desempeñó un papel fundamental en el desarrollo de Azure Data Lake y Cosmos, que han influido significativamente en el panorama del almacenamiento en la nube y la gestión de datos.

Baskar obtuvo un doctorado en Ciencias de la Computación de la Universidad de Purdue y desde entonces ha pasado más de dos décadas a la vanguardia de la industria tecnológica.

Ha vivido en Seattle durante más de 20 años, donde él, su esposa y sus dos hijos disfrutan de la belleza del noroeste del Pacífico y sus numerosas actividades al aire libre. En su tiempo libre, a Baskar le gusta practicar música y jugar al cricket y al béisbol con sus hijos.

Habilitación de una IA generativa de nivel de producción: nuevas capacidades que reducen los costos, agilizan la producción y mejoran la seguridad

Technical Terrence Team

Insight Partners nears new $10bn fund, FT reports By Reuters

Leave a Reply Cancel reply

Recommended.

Create a custom word cloud trivia game with Python | by Lee Vaughan | March 2024

FTSE 100: Buy high and sell high

Starlink is testing a ‘global roaming’ internet service for $200 per month

Are we headed for a new stock market crash? This is what the experts say

6 Real-World Uses of Microsoft's Newest Phi-3 Vision Language Model | by Youness Mansar | May, 2024

Categories

Important Links

Habilitación de una IA generativa de nivel de producción: nuevas capacidades que reducen los costos, agilizan la producción y mejoran la seguridad

Ofrecer capacidades que aumenten la eficiencia y reduzcan los costos

Presentación de amazon Elastic Kubernetes Service (amazon EKS) en amazon SageMaker HyperPod

Cita de cliente: Articul8 ai

Aportando nueva eficiencia a la inferencia

Implementación de un modelo responsable, seguro y confiable

Aportando valor con innovación que cambia las reglas del juego

Creando avances con AWS

Impulsando la próxima ola de innovación

Acerca del autor

Related

Technical Terrence Team

Insight Partners nears new $10bn fund, FT reports By Reuters

Leave a Reply Cancel reply

Recommended.

Create a custom word cloud trivia game with Python | by Lee Vaughan | March 2024

FTSE 100: Buy high and sell high

Starlink is testing a ‘global roaming’ internet service for $200 per month

Are we headed for a new stock market crash? This is what the experts say

6 Real-World Uses of Microsoft's Newest Phi-3 Vision Language Model | by Youness Mansar | May, 2024

Categories

Important Links

Get daily news updates to your inbox!