Cómo abordar las preocupaciones sobre el colapso de los modelos a partir de datos sintéticos en IA | por Alexander Watson | agosto de 2024

El panorama de la IA está evolucionando rápidamente y los datos sintéticos se están convirtiendo en una herramienta poderosa para el desarrollo de modelos. Si bien ofrecen un potencial inmenso, las preocupaciones recientes sobre el colapso de los modelos han generado debate. Profundicemos en la realidad del uso de datos sintéticos y su impacto en el desarrollo de la IA.

El artículo de Nature “Los modelos de IA colapsan cuando se entrenan con datos generados de forma recursiva” de Shumailov et al. planteó preguntas importantes sobre el uso de datos sintéticos:

“Encontramos eso uso indiscriminado “La distribución de contenido generada por modelos durante el entrenamiento provoca defectos irreversibles en los modelos resultantes, en los que desaparecen las colas de la distribución de contenido original”. (1)
“Sostenemos que el proceso de colapso del modelo es universal entre los modelos generativos que entrenar recursivamente sobre datos generados por generaciones anteriores” (1)

Sin embargo, es fundamental señalar que este escenario extremo de entrenamiento recursivo con datos puramente sintéticos no es representativo de las prácticas de desarrollo de IA del mundo real. Los propios autores reconocen:

“Aquí exploramos lo que sucede con los modelos de lenguaje cuando se ajustan secuencialmente con datos generados por otros modelos… Evaluamos la configuración más común de entrenamiento de un modelo de lenguaje: una configuración de ajuste fino para la cual cada uno de los ciclos de entrenamiento comienza a partir de un modelo preentrenado con datos recientes” (1)

La metodología del estudio no tiene en cuenta la afluencia continua de datos nuevos y diversos que caracteriza el entrenamiento de modelos de IA en el mundo real. Esta limitación puede llevar a una sobreestimación del colapso del modelo en escenarios prácticos, donde los datos nuevos sirven como un posible mecanismo correctivo contra la degradación.
El diseño experimental, que descarta datos de generaciones anterioresse aparta de las prácticas habituales en el desarrollo de IA que implican aprendizaje acumulativo y curación sofisticada de datos. Es posible que este enfoque no represente con precisión los procesos de retención y construcción de conocimientos típicos de las aplicaciones industriales.
El uso de un Arquitectura de modelo único y estático (OPT-125m) A lo largo de las generaciones no refleja la rápida evolución de las arquitecturas de IA En la práctica, esta simplificación puede exagerar el colapso observado del modelo al no tener en cuenta cómo los avances arquitectónicos pueden mitigar potencialmente estos problemas. En realidad, el campo ha experimentado una rápida progresión (por ejemplo, De GPT-3 a GPT-3.5 a GPT-4o desde Phi-1 a Phi-2 a Phi-3), y cada iteración introduce mejoras significativas en la capacidad del modelo, las capacidades de generalización y los comportamientos emergentes.
Si bien el artículo reconoce el olvido catastrófico, no lo incorpora. técnicas de mitigación estándar Se utilizan en la industria, como la consolidación de pesos elásticos o la repetición de experiencias. Esta omisión puede amplificar el efecto de colapso del modelo observado y limitar la aplicabilidad del estudio a escenarios del mundo real.
El enfoque de generación y uso de datos sintéticos en el estudio carece de la Medidas de control de calidad y prácticas de integración Se emplea comúnmente en la industria. Esta elección metodológica puede llevar a una sobreestimación de los riesgos de colapso del modelo en aplicaciones prácticas donde los datos sintéticos se seleccionan con más cuidado y se combinan con datos del mundo real.

Citas de apoyo del artículo

“También mencionamos brevemente dos conceptos cercanos al colapso del modelo de la literatura existente: el olvido catastrófico que surge en el marco del aprendizaje continuo sin tareas y el envenenamiento de datos que conduce maliciosamente a un comportamiento no deseado”. (1)

En la práctica, el objetivo de los datos sintéticos es aumentar y extender los conjuntos de datos existentes, incluidos los datos implícitos incorporados en los modelos base. Cuando los equipos están afinando o continuando con el entrenamiento previo, el objetivo es proporcionar datos adicionales para mejorar la solidez y el rendimiento del modelo.

El papel“¿Es inevitable el colapso de los modelos? Cómo acabar con la maldición de la recursión mediante la acumulación de datos reales y sintéticos” Por Gerstgrasser et al., investigadores de Stanford, MIT y Constellation, presenta contrapuntos significativos a las preocupaciones sobre el colapso del modelo de IA:

“Nuestro trabajo proporciona evidencia empírica y teórica consistente de que la acumulación de datos evita el colapso del modelo..” (2)

Fuente: ¿Es inevitable el colapso de un modelo? Cómo acabar con la maldición de la recursión acumulando datos reales y sintéticos. (2)

Este trabajo ha demostrado que la combinación de datos sintéticos con datos del mundo real puede prevenir la degradación del modelo.

Calidad sobre cantidad

Como se destaca en Informe técnico Phi-3 de Microsoft:

“La creación de un conjunto de datos sólido y completo exige algo más que potencia computacional: requiere iteraciones complejas, una selección estratégica de temas y una comprensión profunda de las lagunas de conocimiento para garantizar la calidad y la diversidad de los datos”. (3)

Esto resalta la importancia de generar datos sintéticos de manera cuidadosa en lugar de utilizarlos indiscriminadamente.

Y Apple en el entrenamiento de sus nuevos dispositivos y modelos base:

“Consideramos que la calidad de los datos es esencial para el éxito del modelo, por lo que utilizamos una estrategia de datos híbrida en nuestro proceso de capacitación, incorporando datos anotados por humanos y sintéticos, y llevamos a cabo procedimientos exhaustivos de curación y filtrado de datos”. (10)

Esto resalta la importancia de generar datos sintéticos de manera cuidadosa en lugar de utilizarlos indiscriminadamente.

Mejora iterativa, no entrenamiento recursivo

Como se destaca en Gretel Navigator, Nemotron de NVIDIA y la arquitectura AgentInstruct, los datos sintéticos de vanguardia se generan mediante agentes que simulan, evalúan y mejoran iterativamente los resultados, no simplemente entrenando recursivamente en su propio resultado. A continuación, se muestra un ejemplo de la arquitectura de generación de datos sintéticos que se utiliza en AgentInstruct.

Fuente: Arquitectura de generación de datos sintéticos de AgentInstruct (11)

A continuación se muestran algunos resultados de ejemplo de publicaciones recientes de datos sintéticos:

Los datos sintéticos están impulsando avances significativos en diversas industrias:

Cuidado de la salud: Rhys Parker, director clínico de SA Health, afirmó:

“Nuestro enfoque de datos sintéticos con Gretel ha transformado la forma en que manejamos la información confidencial de los pacientes“Las solicitudes de datos que antes llevaban meses o años ahora se pueden obtener en cuestión de días. No se trata solo de un avance tecnológico, sino de un cambio fundamental en la gestión de los datos sanitarios que mejora significativamente la atención al paciente y garantiza la privacidad. Prevemos que los datos sintéticos se convertirán en una rutina en la investigación médica en los próximos años, abriendo nuevas fronteras en la innovación sanitaria”. (9)

Razonamiento matemático:Los sistemas AlphaProof y AlphaGeometry 2 de DeepMind,

“AlphaGeometry 2, basado en Gemini y entrenado con un orden de magnitud mayor de datos que su predecesor”, logró una medalla de plata en la Olimpiada Internacional de Matemáticas al resolver problemas matemáticos complejos, demostrando el poder de los datos sintéticos para mejorar las capacidades de IA en campos especializados (5).

Investigación en ciencias de la vidaEl equipo de investigación de Nvidia informó:

“Los datos sintéticos también proporcionan una alternativa ética al uso de datos confidenciales de pacientes, lo que ayuda con la educación y la capacitación. Sin comprometer la privacidad del paciente” (4)

Uno de los aspectos más poderosos de los datos sintéticos es su potencial para nivelar el campo de juego en el desarrollo de la IA.

Empoderando a las industrias con escasez de datos:Empoderamiento de las industrias con escasez de datos: los datos sintéticos permiten que las industrias con acceso limitado a grandes conjuntos de datos compitan en el desarrollo de la IA. Esto es particularmente crucial para los sectores en los que la recopilación de datos es un desafío debido a preocupaciones sobre la privacidad o limitaciones de recursos.

Personalización a escala:Incluso las grandes empresas tecnológicas están aprovechando los datos sintéticos para la personalización. La investigación de Microsoft sobre el modelo Phi-3 demuestra cómo se pueden utilizar los datos sintéticos para crear modelos altamente especializados:

“Creemos que la creación de conjuntos de datos sintéticos se convertirá, en un futuro próximo, en una habilidad técnica importante y un tema central de investigación en IA”. (3)

Aprendizaje personalizado para modelos de IA:Andrej Karpathy, exdirector de IA en Tesla, sugiere un futuro en el que crearemos “libros de texto” personalizados para enseñar modelos de lenguaje:

Cómo abordar las preocupaciones sobre el colapso de los modelos a partir de datos sintéticos en IA | por Alexander Watson | agosto de 2024

Technical Terrence Team

My 2 favorite income stocks are both up over 10% after today's drop and I'm desperate to buy more.

Leave a Reply Cancel reply

Recommended.

Amazon accused of 'deceptive scheme' to make customers pay more

6 Stocks to Watch Wednesday: CrowdStrike, Tesla, Campbell Soup and More (NASDAQ:CRWD)

USD/CHF in a strong uptrend; USD/JPY leaves the zone

Here’s How I’ll Find the Best Passive Income Stocks to Buy in 2024

AI meta agent in crypto is booming, but will it last?

Categories

Important Links

Cómo abordar las preocupaciones sobre el colapso de los modelos a partir de datos sintéticos en IA | por Alexander Watson | agosto de 2024

Ahorro de costes y eficiencia de recursos:

Referencias

Related

Technical Terrence Team

My 2 favorite income stocks are both up over 10% after today's drop and I'm desperate to buy more.

Leave a Reply Cancel reply

Recommended.

Amazon accused of 'deceptive scheme' to make customers pay more

6 Stocks to Watch Wednesday: CrowdStrike, Tesla, Campbell Soup and More (NASDAQ:CRWD)

USD/CHF in a strong uptrend; USD/JPY leaves the zone

Here’s How I’ll Find the Best Passive Income Stocks to Buy in 2024

AI meta agent in crypto is booming, but will it last?

Categories

Important Links

Get daily news updates to your inbox!