Los modelos de lenguajes grandes (LLM) son cada vez más útiles para tareas de programación y robótica, pero para problemas de razonamiento más complicados, la brecha entre estos sistemas y los humanos es enorme. Sin la capacidad de aprender nuevos conceptos como lo hacen los humanos, estos sistemas no logran formar buenas abstracciones (esencialmente, representaciones de alto nivel de conceptos complejos que omiten detalles menos importantes) y, por lo tanto, fallan cuando se les pide que realicen tareas más sofisticadas.
Afortunadamente, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han encontrado un tesoro escondido de abstracciones dentro del lenguaje natural. En tres artículos que se presentarán en la Conferencia Internacional sobre Representaciones del Aprendizaje este mes, el grupo muestra cómo nuestras palabras cotidianas son una rica fuente de contexto para los modelos de lenguaje, ayudándolos a construir mejores representaciones generales para la síntesis de código, la planificación de la IA y la navegación robótica. manipulación.
Los tres marcos separados crean bibliotecas de abstracciones para la tarea encomendada: USAR (inducción de biblioteca a partir de observaciones del lenguaje) puede sintetizar, comprimir y documentar código; ada (adquisición del dominio de acción) explora la toma de decisiones secuencial para agentes de inteligencia artificial; y LGA (abstracción guiada por el lenguaje) ayuda a los robots a comprender mejor sus entornos para desarrollar planes más viables. Cada sistema es un método neurosimbólico, un tipo de IA que combina redes neuronales similares a las humanas y componentes lógicos similares a programas.
LILO: Un marco neurosimbólico que codifica
Se pueden utilizar modelos de lenguaje grandes para escribir rápidamente soluciones para tareas de codificación a pequeña escala, pero aún no se pueden diseñar bibliotecas de software completas como las escritas por ingenieros de software humanos. Para llevar sus capacidades de desarrollo de software aún más lejos, los modelos de IA necesitan refactorizar (reducir y combinar) el código en bibliotecas de programas concisos, legibles y reutilizables.
Herramientas de refactorización como las desarrolladas anteriormente por el MIT Puntada El algoritmo puede identificar automáticamente abstracciones, por lo que, en un guiño a la película de Disney “Lilo & Stitch”, los investigadores de CSAIL combinaron estos enfoques de refactorización algorítmica con LLM. Su método neurosimbólico, LILO, utiliza un LLM estándar para escribir código y luego lo combina con Stitch para encontrar abstracciones que estén ampliamente documentadas en una biblioteca.
El énfasis único de LILO en el lenguaje natural permite que el sistema realice tareas que requieren conocimientos de sentido común similares a los de los humanos, como identificar y eliminar todas las vocales de una cadena de código y dibujar un copo de nieve. En ambos casos, el sistema CSAIL superó a los LLM independientes, así como a un algoritmo de aprendizaje de biblioteca anterior del MIT llamado DreamCoder, lo que indica su capacidad para desarrollar una comprensión más profunda de las palabras dentro de las indicaciones. Estos alentadores resultados señalan cómo LILO podría ayudar con cosas como escribir programas para manipular documentos como hojas de cálculo de Excel, ayudar a la IA a responder preguntas sobre imágenes y dibujar gráficos 2D.
“Los modelos de lenguaje prefieren trabajar con funciones nombradas en lenguaje natural”, dice Gabe Grand SM '23, estudiante de doctorado del MIT en ingeniería eléctrica e informática, afiliado a CSAIL y autor principal de la investigación. “Nuestro trabajo crea abstracciones más sencillas para los modelos de lenguaje y asigna nombres y documentación en lenguaje natural a cada uno, lo que genera un código más interpretable para los programadores y un mejor rendimiento del sistema”.
Cuando se le solicita una tarea de programación, LILO primero utiliza un LLM para proponer rápidamente soluciones basadas en los datos con los que fue capacitado, y luego el sistema busca lentamente y de manera más exhaustiva soluciones externas. A continuación, Stitch identifica de manera eficiente estructuras comunes dentro del código y extrae abstracciones útiles. Luego, LILO los nombra y documenta automáticamente, lo que da como resultado programas simplificados que el sistema puede utilizar para resolver tareas más complejas.
El marco del MIT escribe programas en lenguajes de programación de dominios específicos, como Logo, un lenguaje desarrollado en el MIT en la década de 1970 para enseñar programación a los niños. La ampliación de los algoritmos de refactorización automatizada para manejar lenguajes de programación más generales como Python será un foco de investigación futura. Aun así, su trabajo representa un paso adelante en cuanto a cómo los modelos de lenguaje pueden facilitar actividades de codificación cada vez más elaboradas.
Ada: el lenguaje natural guía la planificación de tareas de IA
Al igual que en la programación, los modelos de IA que automatizan tareas de varios pasos en los hogares y los videojuegos basados en comandos carecen de abstracciones. Imagina que estás preparando el desayuno y le pides a tu compañero de cuarto que traiga un huevo caliente a la mesa; intuitivamente abstraerán sus conocimientos previos sobre cómo cocinar en tu cocina en una secuencia de acciones. Por el contrario, un LLM capacitado con información similar todavía tendrá dificultades para razonar sobre lo que necesita para elaborar un plan flexible.
El marco “Ada”, liderado por CSAIL, que lleva el nombre de la famosa matemática Ada Lovelace, a quien muchos consideran la primera programadora del mundo, avanza en este tema mediante el desarrollo de bibliotecas de planes útiles para tareas de cocina virtuales y juegos. El método se entrena en tareas potenciales y sus descripciones en lenguaje natural, luego un modelo de lenguaje propone abstracciones de acciones a partir de este conjunto de datos. Un operador humano puntúa y filtra los mejores planes en una biblioteca, de modo que las mejores acciones posibles puedan implementarse en planes jerárquicos para diferentes tareas.
“Tradicionalmente, los grandes modelos de lenguaje han tenido problemas con tareas más complejas debido a problemas como el razonamiento sobre abstracciones”, dice el investigador principal de Ada, Lio Wong, estudiante graduado del MIT en ciencias cognitivas y cerebrales, afiliado a CSAIL y coautor de LILO. “Pero podemos combinar las herramientas que utilizan los ingenieros de software y los especialistas en robótica con los LLM para resolver problemas difíciles, como la toma de decisiones en entornos virtuales”.
Cuando los investigadores incorporaron el modelo de lenguaje grande GPT-4, ampliamente utilizado, en Ada, el sistema completó más tareas en un simulador de cocina y Mini Minecraft que la base de toma de decisiones de IA “Código como políticas”. Ada utilizó la información subyacente oculta en el lenguaje natural para comprender cómo colocar vino frío en un gabinete y crear una cama. Los resultados indicaron una asombrosa mejora en la precisión de las tareas del 59 y 89 por ciento, respectivamente.
Con este éxito, los investigadores esperan generalizar su trabajo a hogares del mundo real, con la esperanza de que Ada pueda ayudar con otras tareas domésticas y ayudar a varios robots en una cocina. Por ahora, su principal limitación es que utiliza un LLM genérico, por lo que el equipo de CSAIL quiere aplicar un modelo de lenguaje más potente y perfeccionado que podría ayudar con una planificación más extensa. Wong y sus colegas también están considerando combinar Ada con un marco de manipulación robótica recién salido de CSAIL: LGA (abstracción guiada por lenguaje).
Abstracción guiada por el lenguaje: representaciones de tareas robóticas
Andi Peng SM '23, estudiante de posgrado del MIT en ingeniería eléctrica e informática y afiliada a CSAIL, y sus coautores diseñaron un método para ayudar a las máquinas a interpretar su entorno más como los humanos, eliminando detalles innecesarios en un entorno complejo como una fábrica o una cocina. Al igual que LILO y Ada, LGA tiene un enfoque novedoso en cómo el lenguaje natural nos lleva a esas mejores abstracciones.
En estos entornos menos estructurados, un robot necesitará algo de sentido común sobre su tarea, incluso con una formación básica previa. Pídale a un robot que le entregue un tazón, por ejemplo, y la máquina necesitará una comprensión general de qué características son importantes en su entorno. A partir de ahí, puede razonar sobre cómo entregarte el artículo que deseas.
En el caso de LGA, los humanos primero proporcionan un modelo de lenguaje previamente entrenado con una descripción general de la tarea utilizando lenguaje natural, como “tráeme mi sombrero”. Luego, el modelo traduce esta información en abstracciones sobre los elementos esenciales necesarios para realizar esta tarea. Finalmente, una política de imitación entrenada en algunas demostraciones puede implementar estas abstracciones para guiar a un robot a agarrar el artículo deseado.
El trabajo anterior requería que una persona tomara extensas notas sobre diferentes tareas de manipulación para entrenar previamente a un robot, lo que puede resultar costoso. Sorprendentemente, LGA guía los modelos de lenguaje para producir abstracciones similares a las de un anotador humano, pero en menos tiempo. Para ilustrar esto, LGA desarrolló políticas robóticas para ayudar al cuadrúpedo Spot de Boston Dynamics a recoger frutas y tirar bebidas a un contenedor de reciclaje. Estos experimentos muestran cómo el método desarrollado por el MIT puede escanear el mundo y desarrollar planes efectivos en entornos no estructurados, guiando potencialmente a vehículos autónomos en la carretera y a robots que trabajan en fábricas y cocinas.
“En robótica, una verdad que a menudo ignoramos es cuánto necesitamos refinar nuestros datos para que un robot sea útil en el mundo real”, dice Peng. “Más allá de simplemente memorizar lo que hay en una imagen para entrenar robots para realizar tareas, queríamos aprovechar la visión por computadora y los modelos de subtítulos junto con el lenguaje. Al producir leyendas de texto a partir de lo que ve un robot, demostramos que los modelos de lenguaje pueden esencialmente generar conocimiento mundial importante para un robot”.
El desafío para LGA es que algunos comportamientos no se pueden explicar en el lenguaje, lo que hace que ciertas tareas no se especifiquen lo suficiente. Para ampliar la forma en que representan características en un entorno, Peng y sus colegas están considerando incorporar interfaces de visualización multimodal en su trabajo. Mientras tanto, LGA proporciona una manera para que los robots obtengan una mejor sensación de su entorno cuando ayudan a los humanos.
Una “frontera apasionante” en IA
“El aprendizaje bibliotecario representa una de las fronteras más apasionantes de la inteligencia artificial, y ofrece un camino hacia el descubrimiento y el razonamiento sobre abstracciones compositivas”, afirma el profesor asistente de la Universidad de Wisconsin-Madison, Robert Hawkins, que no participó en los artículos. Hawkins señala que las técnicas anteriores que exploran este tema han sido “demasiado costosas desde el punto de vista computacional para usarlas a escala” y tienen un problema con las lambdas, o palabras clave utilizadas para describir nuevas funciones en muchos idiomas, que generan. “Tienden a producir 'ensaladas lambda' opacas, grandes montones de funciones difíciles de interpretar. Estos artículos recientes demuestran un camino convincente a seguir al colocar grandes modelos de lenguaje en un bucle interactivo con algoritmos de planificación, compresión y búsqueda simbólica. Este trabajo permite la adquisición rápida de bibliotecas más interpretables y adaptables para la tarea en cuestión”.
Al crear bibliotecas de abstracciones de código de alta calidad utilizando lenguaje natural, los tres métodos neurosimbólicos facilitan que los modelos de lenguaje aborden problemas y entornos más elaborados en el futuro. Esta comprensión más profunda de las palabras clave precisas dentro de un mensaje presenta un camino a seguir en el desarrollo de modelos de IA más parecidos a los humanos.
Los miembros del MIT CSAIL son autores principales de cada artículo: Joshua Tenenbaum, profesor de ciencias cognitivas y del cerebro, tanto para LILO como para Ada; Julie Shah, jefa del Departamento de Aeronáutica y Astronáutica de LGA; y Jacob Andreas, profesor asociado de ingeniería eléctrica e informática, para los tres. Los autores adicionales del MIT son todos estudiantes de doctorado: Maddy Bowers y Theo x. Olausson de LILO, Jiayuan Mao y Pratyusha Sharma de Ada, y Belinda Z. Li de LGA. Muxin Liu del Harvey Mudd College fue coautor de LILO; Zachary Siegel de la Universidad de Princeton, Jaihai Feng de la Universidad de California en Berkeley y Noa Korneev de Microsoft fueron coautores de Ada; e Ilia Sucholutsky, Theodore R. Sumers y Thomas L. Griffiths de Princeton fueron coautores de LGA.
LILO y Ada contaron con el apoyo, en parte, del MIT Quest for Intelligence, el MIT-IBM Watson ai Lab, Intel, la Oficina de Investigación Científica de la Fuerza Aérea de EE. UU., la Agencia de Proyectos de Investigación Avanzada de Defensa de EE. UU. y la Oficina de Investigación Naval de EE. UU. , y este último proyecto también recibió financiación del Centro para Cerebros, Mentes y Máquinas. LGA recibió financiación de la Fundación Nacional de Ciencias de EE. UU., Open Philanthropy, el Consejo de Investigación de Ingeniería y Ciencias Naturales de Canadá y el Departamento de Defensa de EE. UU.