El surgimiento de la inteligencia artificial generativa ha iniciado una profunda exploración filosófica de la naturaleza de la conciencia, la creatividad y la autoría. A medida que somos testigos de nuevos avances en el campo, es cada vez más evidente que estos agentes sintéticos poseen una notable capacidad para crear, repetir y desafiar nuestras nociones tradicionales de inteligencia. Pero, ¿qué significa realmente que un sistema de IA sea “generativo”, con nuevos límites borrosos de expresión creativa entre humanos y máquinas?
Para aquellos que sienten que la “inteligencia artificial generativa”, un tipo de IA que puede generar datos nuevos y originales o contenido similar al que se entrenó, surgió como una sensación de la noche a la mañana, mientras que las nuevas capacidades han sorprendido a muchos. , la tecnología subyacente ha estado en desarrollo durante algún tiempo.
Pero comprender la verdadera capacidad puede ser tan confuso como parte del contenido generativo que producen estos modelos. Con ese fin, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT se reunieron en debates sobre las capacidades y limitaciones de la IA generativa, así como sus posibles impactos en la sociedad y las industrias, con respecto al lenguaje, las imágenes y el código.
Existen varios modelos de IA generativa, cada uno con sus propios enfoques y técnicas únicos. Estos incluyen redes antagónicas generativas (GAN), codificadores automáticos variacionales (VAEs) y modelos de difusión, que han mostrado un poder excepcional en diversas industrias y campos, desde el arte hasta la música y la medicina. Con eso también ha surgido una serie de acertijos éticos y sociales, como la posibilidad de generar noticias falsas, falsificaciones profundas e información errónea. Hacer estas consideraciones es fundamental, dicen los investigadores, para continuar estudiando las capacidades y limitaciones de la IA generativa y garantizar un uso ético y responsable.
Durante los comentarios de apertura, para ilustrar la destreza visual de estos modelos, la profesora de ingeniería eléctrica y ciencias de la computación (EECS) del MIT y directora de CSAIL, Daniela Rus, sacó un regalo especial que sus estudiantes le otorgaron recientemente: un collage de retratos de IA llenos de fotos sonrientes de Rus, ejecutando un espectro de reflejos de espejo. Sin embargo, no había ningún artista encargado a la vista.
La máquina era de agradecer.
Los modelos generativos aprenden a crear imágenes descargando muchas fotos de Internet e intentando que la imagen de salida se parezca a los datos de entrenamiento de muestra. Hay muchas formas de entrenar un generador de redes neuronales, y los modelos de difusión son solo una forma popular. Estos modelos, explicados por el profesor asociado de EECS del MIT y el investigador principal de CSAIL, Phillip Isola, mapean desde el ruido aleatorio hasta las imágenes. Usando un proceso llamado difusión, el modelo convertirá objetos estructurados como imágenes en ruido aleatorio, y el proceso se invierte entrenando una red neuronal para eliminar el ruido paso a paso hasta que se obtenga esa imagen sin ruido. Si alguna vez ha intentado usar DALL-E 2, donde se ingresan una oración y un ruido aleatorio, y el ruido se congela en imágenes, ha usado un modelo de difusión.
“Para mí, el aspecto más emocionante de los datos generativos no es su capacidad para crear imágenes fotorrealistas, sino el nivel de control sin precedentes que nos brinda. Nos ofrece nuevas perillas para girar y diales para ajustar, dando lugar a emocionantes posibilidades. El lenguaje ha surgido como una interfaz particularmente poderosa para la generación de imágenes, permitiéndonos ingresar una descripción como ‘estilo Van Gogh’ y hacer que el modelo produzca una imagen que coincida con esa descripción”, dice Isola. “Sin embargo, el lenguaje no lo abarca todo; algunas cosas son difíciles de transmitir únicamente a través de palabras. Por ejemplo, puede ser difícil comunicar la ubicación precisa de una montaña en el fondo de un retrato. En tales casos, se pueden utilizar técnicas alternativas como el boceto para proporcionar información más específica al modelo y lograr el resultado deseado”.
Luego, Isola usó la imagen de un pájaro para mostrar cómo los diferentes factores que controlan los diversos aspectos de una imagen creada por una computadora son como “tiradas de dados”. Al cambiar estos factores, como el color o la forma del ave, la computadora puede generar muchas variaciones diferentes de la imagen.
Y si no ha usado un generador de imágenes, existe la posibilidad de que haya usado modelos similares para el texto. Jacob Andreas, profesor asistente de EECS del MIT e investigador principal de CSAIL, llevó a la audiencia de las imágenes al mundo de las palabras generadas, reconociendo la naturaleza impresionante de los modelos que pueden escribir poesía, tener conversaciones y generar documentos específicos, todo en el mismo hora.
¿Cómo estos modelos parecen expresar cosas que parecen deseos y creencias? Aprovechan el poder de las incrustaciones de palabras, explica Andreas, donde a las palabras con significados similares se les asignan valores numéricos (vectores) y se colocan en un espacio con muchas dimensiones diferentes. Cuando se grafican estos valores, las palabras que tienen significados similares terminan cerca unas de otras en este espacio. La proximidad de esos valores muestra cuán estrechamente relacionadas están las palabras en significado. (Por ejemplo, quizás “Romeo” suele estar cerca de “Julieta”, y así sucesivamente). Los modelos de transformadores, en particular, usan algo llamado “mecanismo de atención” que se enfoca selectivamente en partes específicas de la secuencia de entrada, lo que permite múltiples rondas de interacciones dinámicas entre diferentes elementos. Este proceso iterativo se puede comparar con una serie de “movimientos” o fluctuaciones entre los diferentes puntos, que conducen a la siguiente palabra predicha en la secuencia.
“Imagínate estar en tu editor de texto y tener un botón mágico en la esquina superior derecha que podrías presionar para transformar tus oraciones en un inglés hermoso y preciso. Hemos tenido revisión de gramática y ortografía por un tiempo, claro, pero ahora podemos explorar muchas otras formas de incorporar estas características mágicas en nuestras aplicaciones”, dice Andreas. “Por ejemplo, podemos acortar un pasaje largo, al igual que encogemos una imagen en nuestro editor de imágenes, y hacer que las palabras aparezcan como deseamos. Incluso podemos ampliar los límites más allá al ayudar a los usuarios a encontrar fuentes y citas mientras desarrollan un argumento. Sin embargo, debemos tener en cuenta que incluso los mejores modelos actuales están lejos de ser capaces de hacer esto de una manera confiable y confiable, y queda mucho trabajo por hacer para que estas fuentes sean confiables e imparciales. No obstante, hay un enorme espacio de posibilidades donde podemos explorar y crear con esta tecnología”.
También se exploró otra hazaña de los grandes modelos de lenguaje, que a veces puede sentirse bastante “meta”, modelos que escriben código, algo así como pequeñas varitas mágicas, excepto que en lugar de hechizos, evocan líneas de código, trayendo (algo) de software el desarrollador sueña con la vida. Armando Solar-Lezama, profesor de EECS del MIT e investigador principal de CSAIL, recuerda algo de la historia de 2014 y explica cómo, en ese momento, hubo un avance significativo en el uso de la “memoria a corto plazo (LSTM)”, una tecnología para la traducción de idiomas que podría utilizarse para corregir asignaciones de programación para texto predecible con una tarea bien definida. Dos años más tarde, la necesidad humana básica favorita de todos apareció en escena: la atención, anunciada por el artículo de Google de 2017 que presentaba el mecanismo “La atención es todo lo que necesitas”. Poco tiempo después, un antiguo CSAILer, Rishabh Singh, formó parte de un equipo que utilizó la atención para construir programas completos para tareas relativamente simples de forma automatizada. Poco después, surgieron los transformadores, lo que llevó a una explosión de investigación sobre el uso del mapeo de texto a texto para generar código.
“El código se puede ejecutar, probar y analizar en busca de vulnerabilidades, lo que lo hace muy poderoso. Sin embargo, el código también es muy frágil y los pequeños errores pueden tener un impacto significativo en su funcionalidad o seguridad”, dice Solar-Lezema. “Otro desafío es el gran tamaño y la complejidad del software comercial, que puede ser difícil de manejar incluso para los modelos más grandes. Además, la diversidad de estilos de codificación y bibliotecas utilizadas por diferentes empresas significa que el nivel de precisión al trabajar con código puede ser muy alto”.
En la discusión posterior basada en preguntas y respuestas, Rus abrió con una sobre el contenido: ¿Cómo podemos hacer que el resultado de la IA generativa sea más poderoso al incorporar conocimientos y restricciones específicos del dominio en los modelos? “Los modelos para procesar datos visuales complejos, como modelos 3D, videos y campos de luz, que se asemejan a la holocubierta de Star Trek, aún dependen en gran medida del conocimiento del dominio para funcionar de manera eficiente”, dice Isola. “Estos modelos incorporan ecuaciones de proyección y óptica en sus funciones objetivo y rutinas de optimización. Sin embargo, con la creciente disponibilidad de datos, es posible que parte del conocimiento del dominio pueda ser reemplazado por los propios datos, lo que proporcionará suficientes restricciones para el aprendizaje. Si bien no podemos predecir el futuro, es plausible que, a medida que avanzamos, necesitemos datos menos estructurados. Aun así, por ahora, el conocimiento del dominio sigue siendo un aspecto crucial del trabajo con datos estructurados”.
El panel también discutió la naturaleza crucial de evaluar la validez del contenido generativo. Se han construido muchos puntos de referencia para mostrar que los modelos son capaces de lograr una precisión a nivel humano en ciertas pruebas o tareas que requieren habilidades lingüísticas avanzadas. Sin embargo, después de una inspección más cercana, simplemente parafrasear los ejemplos puede hacer que los modelos fallen por completo. Identificar los modos de falla se ha vuelto tan crucial, si no más, que entrenar los modelos mismos.
Reconociendo el escenario de la conversación, la academia, Solar-Lezama habló sobre el progreso en el desarrollo de grandes modelos de lenguaje contra los bolsillos profundos y poderosos de la industria. Los modelos académicos, dice, “necesitan computadoras realmente grandes” para crear las tecnologías deseadas que no dependan demasiado del apoyo de la industria.
Más allá de las capacidades técnicas, las limitaciones y cómo está evolucionando todo, Rus también mencionó las apuestas morales en torno a vivir en un mundo generado por IA, en relación con las falsificaciones profundas, la desinformación y el sesgo. Isola mencionó soluciones técnicas más nuevas centradas en las marcas de agua, que podrían ayudar a los usuarios a distinguir sutilmente si una máquina generó una imagen o un fragmento de texto. “Una de las cosas a tener en cuenta aquí es que este es un problema que no se va a resolver únicamente con soluciones técnicas. Podemos proporcionar el espacio de las soluciones y también crear conciencia sobre las capacidades de estos modelos, pero es muy importante que el público en general sea consciente de lo que estos modelos realmente pueden hacer”, dice Solar-Lezama. “Al final del día, esta tiene que ser una conversación más amplia. Esto no debería limitarse a los tecnólogos, porque es un problema social bastante grande que va más allá de la tecnología misma”.
Se discutió otra inclinación en torno a los chatbots, los robots y un tropo favorito en muchos entornos distópicos de la cultura pop: la seducción de la antropomorfización. ¿Por qué, para muchos, existe una tendencia natural a proyectar cualidades humanas en entidades no humanas? Andreas explicó las escuelas de pensamiento opuestas en torno a estos grandes modelos de lenguaje y sus capacidades aparentemente sobrehumanas.
“Algunos creen que los modelos como ChatGPT ya han alcanzado una inteligencia a nivel humano e incluso pueden ser conscientes”, dijo Andreas, “pero en realidad estos modelos aún carecen de las verdaderas capacidades humanas para comprender no solo los matices, sino que a veces se comportan de manera extremadamente formas conspicuas, extrañas, no humanas. Por otro lado, algunos argumentan que estos modelos son solo herramientas superficiales de reconocimiento de patrones que no pueden aprender el verdadero significado del lenguaje. Pero esta visión también subestima el nivel de comprensión que pueden adquirir del texto. Si bien debemos tener cuidado de no exagerar sus capacidades, tampoco debemos pasar por alto los daños potenciales de subestimar su impacto. Al final, debemos abordar estos modelos con humildad y reconocer que todavía hay mucho que aprender sobre lo que pueden y pueden no hacer.