El panorama de la IA está evolucionando rápidamente y los datos sintéticos se están convirtiendo en una herramienta poderosa para el desarrollo de modelos. Si bien ofrecen un potencial inmenso, las preocupaciones recientes sobre el colapso de los modelos han generado debate. Profundicemos en la realidad del uso de datos sintéticos y su impacto en el desarrollo de la IA.
El artículo de Nature “Los modelos de IA colapsan cuando se entrenan con datos generados de forma recursiva” de Shumailov et al. planteó preguntas importantes sobre el uso de datos sintéticos:
- “Encontramos eso uso indiscriminado “La distribución de contenido generada por modelos durante el entrenamiento provoca defectos irreversibles en los modelos resultantes, en los que desaparecen las colas de la distribución de contenido original”. (1)
- “Sostenemos que el proceso de colapso del modelo es universal entre los modelos generativos que entrenar recursivamente sobre datos generados por generaciones anteriores” (1)
Sin embargo, es fundamental señalar que este escenario extremo de entrenamiento recursivo con datos puramente sintéticos no es representativo de las prácticas de desarrollo de IA del mundo real. Los propios autores reconocen:
- “Aquí exploramos lo que sucede con los modelos de lenguaje cuando se ajustan secuencialmente con datos generados por otros modelos… Evaluamos la configuración más común de entrenamiento de un modelo de lenguaje: una configuración de ajuste fino para la cual cada uno de los ciclos de entrenamiento comienza a partir de un modelo preentrenado con datos recientes” (1)
- La metodología del estudio no tiene en cuenta la afluencia continua de datos nuevos y diversos que caracteriza el entrenamiento de modelos de IA en el mundo real. Esta limitación puede llevar a una sobreestimación del colapso del modelo en escenarios prácticos, donde los datos nuevos sirven como un posible mecanismo correctivo contra la degradación.
- El diseño experimental, que descarta datos de generaciones anterioresse aparta de las prácticas habituales en el desarrollo de IA que implican aprendizaje acumulativo y curación sofisticada de datos. Es posible que este enfoque no represente con precisión los procesos de retención y construcción de conocimientos típicos de las aplicaciones industriales.
- El uso de un Arquitectura de modelo único y estático (OPT-125m) A lo largo de las generaciones no refleja la rápida evolución de las arquitecturas de IA En la práctica, esta simplificación puede exagerar el colapso observado del modelo al no tener en cuenta cómo los avances arquitectónicos pueden mitigar potencialmente estos problemas. En realidad, el campo ha experimentado una rápida progresión (por ejemplo, De GPT-3 a GPT-3.5 a GPT-4o desde Phi-1 a Phi-2 a Phi-3), y cada iteración introduce mejoras significativas en la capacidad del modelo, las capacidades de generalización y los comportamientos emergentes.
- Si bien el artículo reconoce el olvido catastrófico, no lo incorpora. técnicas de mitigación estándar Se utilizan en la industria, como la consolidación de pesos elásticos o la repetición de experiencias. Esta omisión puede amplificar el efecto de colapso del modelo observado y limitar la aplicabilidad del estudio a escenarios del mundo real.
- El enfoque de generación y uso de datos sintéticos en el estudio carece de la Medidas de control de calidad y prácticas de integración Se emplea comúnmente en la industria. Esta elección metodológica puede llevar a una sobreestimación de los riesgos de colapso del modelo en aplicaciones prácticas donde los datos sintéticos se seleccionan con más cuidado y se combinan con datos del mundo real.
Citas de apoyo del artículo
- “También mencionamos brevemente dos conceptos cercanos al colapso del modelo de la literatura existente: el olvido catastrófico que surge en el marco del aprendizaje continuo sin tareas y el envenenamiento de datos que conduce maliciosamente a un comportamiento no deseado”. (1)
En la práctica, el objetivo de los datos sintéticos es aumentar y extender los conjuntos de datos existentes, incluidos los datos implícitos incorporados en los modelos base. Cuando los equipos están afinando o continuando con el entrenamiento previo, el objetivo es proporcionar datos adicionales para mejorar la solidez y el rendimiento del modelo.
El papel“¿Es inevitable el colapso de los modelos? Cómo acabar con la maldición de la recursión mediante la acumulación de datos reales y sintéticos” Por Gerstgrasser et al., investigadores de Stanford, MIT y Constellation, presenta contrapuntos significativos a las preocupaciones sobre el colapso del modelo de IA:
Este trabajo ha demostrado que la combinación de datos sintéticos con datos del mundo real puede prevenir la degradación del modelo.
Calidad sobre cantidad
Como se destaca en Informe técnico Phi-3 de Microsoft:
- “La creación de un conjunto de datos sólido y completo exige algo más que potencia computacional: requiere iteraciones complejas, una selección estratégica de temas y una comprensión profunda de las lagunas de conocimiento para garantizar la calidad y la diversidad de los datos”. (3)
Esto resalta la importancia de generar datos sintéticos de manera cuidadosa en lugar de utilizarlos indiscriminadamente.
Y Apple en el entrenamiento de sus nuevos dispositivos y modelos base:
- “Consideramos que la calidad de los datos es esencial para el éxito del modelo, por lo que utilizamos una estrategia de datos híbrida en nuestro proceso de capacitación, incorporando datos anotados por humanos y sintéticos, y llevamos a cabo procedimientos exhaustivos de curación y filtrado de datos”. (10)
Esto resalta la importancia de generar datos sintéticos de manera cuidadosa en lugar de utilizarlos indiscriminadamente.
Mejora iterativa, no entrenamiento recursivo
Como se destaca en Gretel Navigator, Nemotron de NVIDIA y la arquitectura AgentInstruct, los datos sintéticos de vanguardia se generan mediante agentes que simulan, evalúan y mejoran iterativamente los resultados, no simplemente entrenando recursivamente en su propio resultado. A continuación, se muestra un ejemplo de la arquitectura de generación de datos sintéticos que se utiliza en AgentInstruct.
A continuación se muestran algunos resultados de ejemplo de publicaciones recientes de datos sintéticos:
Los datos sintéticos están impulsando avances significativos en diversas industrias:
Cuidado de la salud: Rhys Parker, director clínico de SA Health, afirmó:
“Nuestro enfoque de datos sintéticos con Gretel ha transformado la forma en que manejamos la información confidencial de los pacientes“Las solicitudes de datos que antes llevaban meses o años ahora se pueden obtener en cuestión de días. No se trata solo de un avance tecnológico, sino de un cambio fundamental en la gestión de los datos sanitarios que mejora significativamente la atención al paciente y garantiza la privacidad. Prevemos que los datos sintéticos se convertirán en una rutina en la investigación médica en los próximos años, abriendo nuevas fronteras en la innovación sanitaria”. (9)
Razonamiento matemático:Los sistemas AlphaProof y AlphaGeometry 2 de DeepMind,
“AlphaGeometry 2, basado en Gemini y entrenado con un orden de magnitud mayor de datos que su predecesor”, logró una medalla de plata en la Olimpiada Internacional de Matemáticas al resolver problemas matemáticos complejos, demostrando el poder de los datos sintéticos para mejorar las capacidades de IA en campos especializados (5).
Investigación en ciencias de la vidaEl equipo de investigación de Nvidia informó:
“Los datos sintéticos también proporcionan una alternativa ética al uso de datos confidenciales de pacientes, lo que ayuda con la educación y la capacitación. Sin comprometer la privacidad del paciente” (4)
Uno de los aspectos más poderosos de los datos sintéticos es su potencial para nivelar el campo de juego en el desarrollo de la IA.
Empoderando a las industrias con escasez de datos:Empoderamiento de las industrias con escasez de datos: los datos sintéticos permiten que las industrias con acceso limitado a grandes conjuntos de datos compitan en el desarrollo de la IA. Esto es particularmente crucial para los sectores en los que la recopilación de datos es un desafío debido a preocupaciones sobre la privacidad o limitaciones de recursos.
Personalización a escala:Incluso las grandes empresas tecnológicas están aprovechando los datos sintéticos para la personalización. La investigación de Microsoft sobre el modelo Phi-3 demuestra cómo se pueden utilizar los datos sintéticos para crear modelos altamente especializados:
“Creemos que la creación de conjuntos de datos sintéticos se convertirá, en un futuro próximo, en una habilidad técnica importante y un tema central de investigación en IA”. (3)
Aprendizaje personalizado para modelos de IA:Andrej Karpathy, exdirector de IA en Tesla, sugiere un futuro en el que crearemos “libros de texto” personalizados para enseñar modelos de lenguaje:
Ampliación de escala con datos sintéticos:Jim Fan, investigador de IA, destaca el potencial de los datos sintéticos para proporcionar la próxima frontera de los datos de entrenamiento:
Fan también señala que los agentes encarnados, como robots como Optimus de Tesla, podrían ser una fuente importante de datos sintéticos si se simulan a escala.
Ahorro de costes y eficiencia de recursos:
El blog Hugging Face muestra que ajustar un modelo de lenguaje pequeño personalizado usando datos sintéticos cuesta alrededor de $2,7, en comparación con $3061 con GPT-4 en datos del mundo real, al mismo tiempo que emite significativamente menos CO2 y ofrece velocidades de inferencia más rápidas.
A continuación se muestra una bonita visualización de Hugging Face que muestra los beneficios en todos los casos de uso:
Si bien no se deben ignorar los riesgos potenciales de colapso del modelo, las aplicaciones y los beneficios de los datos sintéticos en el mundo real son demasiado importantes como para desestimarlos. A medida que sigamos avanzando en este campo, será fundamental adoptar un enfoque equilibrado que combine los datos sintéticos con una validación rigurosa en el mundo real y prácticas de generación bien pensadas para maximizar su potencial.
Los datos sintéticos, cuando se utilizan de manera responsable y junto con datos del mundo real, tienen el potencial de acelerar drásticamente el desarrollo de la IA en todos los sectores. No se trata de reemplazar datos reales, sino de aumentar y ampliar nuestras capacidades en formas que apenas estamos comenzando a explorar. Al mejorar los conjuntos de datos con datos sintéticos, podemos llenar lagunas de datos críticas, abordar sesgos y crear modelos más sólidos.
Al aprovechar los datos sintéticos de manera responsable, podemos democratizar el desarrollo de la IA, impulsar la innovación en sectores con escasez de datos y ampliar los límites de lo posible en el aprendizaje automático, todo ello manteniendo la integridad y la confiabilidad de nuestros sistemas de IA.
Referencias
- Shumailov, I., Shumaylov, Z., Zhao, Y., Gal, Y., Papernot, N., y Anderson, R. (2023). La maldición de la recursión: el entrenamiento con datos generados hace que los modelos olviden. Preimpresión de arXiv arXiv:2305.17493.
- Gerstgrasser, M., Schaeffer, R., Dey, A., Rafailov, R., Sleight, H., Hughes, J., … y Zhang, C. (2023). ¿Es inevitable el colapso del modelo? Romper la maldición de la recursión mediante la acumulación de datos reales y sintéticos. Preimpresión de arXiv arXiv:2404.01413.
- Li, Y., Bubeck, S., Eldan, R., Del Giorno, A., Gunasekar, S. y Lee, YT (2023). Los libros de texto son todo lo que necesitas II: informe técnico de phi-1.5. Preimpresión de arXiv arXiv:2309.05463.
- Equipo de investigación de Nvidia. (2024). Abordar las limitaciones de las imágenes médicas con la generación de datos sintéticos. Blog de Nvidia.
- Blog de DeepMind. (2024). La IA logra el estándar de medalla de plata al resolver problemas de la Olimpiada Internacional de Matemáticas.ai-solves-imo-problems-at-silver-medal-level” rel=”noopener ugc nofollow” target=”_blank”> Mente profunda.
- Blog Hugging Face sobre datos sintéticos (2024). Datos sintéticos: ahorre dinero, tiempo y carbono con código abierto. Cara abrazada.
- Karpathy, A. (2024). Libros de texto personalizados para modelos lingüísticos.x.com/karpathy/status/1509289133637832705″ rel=”noopener ugc nofollow” target=”_blank”> Gorjeo.
- Fan, J. (2024). Datos sintéticos y el futuro del entrenamiento de IA.x.com/DrJimFan/status/1727505774514180188″ rel=”noopener ugc nofollow” target=”_blank”> Gorjeo.
- Salud de Australia del Sur. (2024). Salud de Australia del Sur se asocia con Gretel para impulsar una iniciativa de datos sintéticos a nivel estatal para compartir datos de EHR de manera segura. Blog de Microsoft para startups.
- Presentamos los modelos básicos de servidor y dispositivo de Apple. https://machinelearning.apple.com/research/introduciendo-apple-foundation-models
- AgentInstruct: Hacia la enseñanza generativa con flujos agentes. https://arxiv.org/abs/2407.03502
- Gerstgrasser, M. (2024). Comentario sobre la publicación de LinkedIn de Yev Meyer, Ph.D. LinkedIn. https://www.linkedin.com/feed/update/urn:li:activity:7223028230444785664