El crecimiento explosivo de la inteligencia artificial en los últimos años, coronado por el meteórico ascenso de los chatbots de IA generativa como ChatGPT, ha hecho que la tecnología asumiera muchas tareas que, antes, solo las mentes humanas podían realizar. Pero a pesar de sus cálculos lingüísticos cada vez más capaces, estos sistemas de aprendizaje automático siguen siendo sorprendentemente ineptos a la hora de realizar el tipo de saltos cognitivos y deducciones lógicas que incluso el adolescente promedio puede acertar de manera consistente.
En el extracto de Hitting the Books de esta semana, Una breve historia de la inteligencia: evolución, inteligencia artificial y los cinco avances que crearon nuestro cerebroel empresario de inteligencia artificial Max Bennett explora la burlona brecha en la competencia informática al explorar el desarrollo de la máquina orgánica que sigue el modelo de la IA: el cerebro humano.
Centrándose en los cinco “avances” evolutivos, en medio de innumerables callejones sin salida genéticos y ramificaciones fallidas, que llevaron a nuestra especie a nuestras mentes modernas, Bennett también muestra que los mismos avances que tardaron eones en evolucionar a la humanidad se pueden adaptar para ayudar a guiar el desarrollo de la IA. tecnologías del mañana. En el siguiente extracto, analizamos cómo se construyen los sistemas de IA generativa como GPT-3 para imitar las funciones predictivas del neocórtexpero todavía no puedo bastante comprender los caprichos del habla humana.
Extraído de Una breve historia de la inteligencia: evolución, inteligencia artificial y los cinco avances que crearon nuestro cerebro por Max Bennett. Publicado por Mariner Books. Copyright © 2023 por Max Bennett. Reservados todos los derechos.
Palabras sin mundos interiores
GPT-3 se proporciona palabra tras palabra, frase tras frase, párrafo tras párrafo. Durante este largo proceso de entrenamiento, intenta predecir la siguiente palabra en cualquiera de estos largos flujos de palabras. Y con cada predicción, los pesos de su gigantesca red neuronal se empujan ligeramente hacia la respuesta correcta. Haga esto una cantidad astronómica de veces y, finalmente, GPT-3 podrá predecir automáticamente la siguiente palabra basándose en una oración o párrafo anterior. En principio, esto capta al menos algún aspecto fundamental de cómo funciona el lenguaje en el cerebro humano. Considere lo automático que es para usted predecir el siguiente símbolo en las siguientes frases:
-
Uno más uno es igual a _____
-
Las rosas son rojas, las violetas son _____
Has visto frases similares infinitas veces, por lo que tu maquinaria neocortical predice automáticamente qué palabra viene a continuación. Sin embargo, lo que hace que GPT-3 sea impresionante no es que simplemente predice la siguiente palabra de una secuencia que ha visto un millón de veces; eso podría lograrse con nada más que memorizar oraciones. Lo que es impresionante es que a GPT-3 se le puede dar una novedoso secuencia que nunca antes había visto y aún predice con precisión la siguiente palabra. Esto también captura claramente algo que el cerebro humano puede _____.
¿Podrías predecir que la siguiente palabra era hacer? Supongo que podrías, aunque nunca antes habías visto esa frase exacta. La cuestión es que tanto GPT-3 como las áreas neocorticales del lenguaje parecen participar en la predicción. Ambos pueden generalizar experiencias pasadas, aplicarlas a nuevas oraciones y adivinar lo que viene a continuación.
GPT-3 y modelos de lenguaje similares demuestran cómo una red de neuronas puede capturar razonablemente las reglas de gramática, sintaxis y contexto si se le da suficiente tiempo para aprender. Pero si bien esto muestra que la predicción es parte de los mecanismos del lenguaje, ¿significa esto que la predicción es todo lo que hay al lenguaje humano? Intenta terminar estas cuatro preguntas:
-
si 3X + 1 = 3, entonces x es igual a _____
-
Estoy en mi sótano sin ventanas, miro hacia el cielo y veo _____
-
Lanzó la pelota de béisbol a 100 pies por encima de mi cabeza, levanté la mano para atraparla, salté y _____
-
Conduzco lo más rápido que puedo hacia Los Ángeles desde Nueva York. Una hora después de pasar por Chicago, finalmente _____
Aquí sucede algo diferente. En la primera pregunta, probablemente hiciste una pausa y realizaste algunos cálculos mentales antes de poder responder la pregunta. En las otras preguntas, probablemente, aunque sólo fuera por una fracción de segundo, te detuviste para visualizarte en un sótano mirando hacia arriba y te diste cuenta de que lo que verías era el techo. O te visualizaste tratando de atrapar una pelota de béisbol a treinta metros por encima de tu cabeza. O te imaginaste una hora después de Chicago y trataste de encontrar dónde estarías en un mapa mental de Estados Unidos. Con este tipo de preguntas, en tu cerebro sucede más que la mera predicción automática de palabras.
Por supuesto, ya hemos explorado este fenómeno: es una simulación. En estas preguntas, estás representando una simulación interna, ya sea de valores cambiantes en una serie de operaciones algebraicas o de un sótano tridimensional. Y las respuestas a las preguntas sólo se encuentran en las reglas y la estructura de su mundo interior simulado.
Le di las mismas cuatro preguntas a GPT-3; aquí están sus respuestas (las respuestas de GPT-3 están en negrita y subrayadas):
-
si 3X + 1 = 3 , entonces x es igual
-
Estoy en mi sótano sin ventanas, miro hacia el cielo y veo
-
Lanzó la pelota a 100 pies por encima de mi cabeza, levanté la mano para atraparla, salté,
-
Conduzco lo más rápido que puedo hacia Los Ángeles desde Nueva York. Una hora después de pasar por Chicago, finalmente .
Estas cuatro respuestas demuestran que GPT-3, en junio de 2022, carecía de comprensión incluso de aspectos simples de cómo funciona el mundo. si 3X + 1 = 3, entonces X es igual a 2/3, no 1. Si estuvieras en un sótano y miraras hacia el cielo, verías el techo, no las estrellas. Si intentaras atrapar una pelota a 100 pies por encima de tu cabeza, no Atrapa la pelota. Si estuviera conduciendo hacia Los Ángeles desde Nueva York y hubiera pasado por Chicago hace una hora, aún no estaría en la costa. Las respuestas de GPT-3 carecían de sentido común.
Lo que encontré no fue sorprendente ni novedoso; Es bien sabido que los sistemas modernos de inteligencia artificial, incluidos estos nuevos modelos de lenguaje sobrealimentados, luchan con estas cuestiones. Pero ese es el punto: incluso un modelo entrenado en todo el corpus de Internet, generando millones de dólares en costos de servidores (requiriendo acres de computadoras en alguna granja de servidores desconocida) aún lucha por responder preguntas de sentido común, aquellas que presumiblemente pueden responder incluso un humano de secundaria.
Por supuesto, razonar sobre las cosas mediante simulación también conlleva problemas. Supongamos que le hago la siguiente pregunta:
Tom W. es manso y reservado. Le gusta la música suave y usa gafas. ¿Qué profesión es más probable que tenga Tom W.?
1) bibliotecario
2) trabajador de la construcción
Si eres como la mayoría de las personas, respondiste. bibliotecario. Pero esto está mal. Los humanos tienden a ignorar las tasas base: ¿consideraste el numero base de los trabajadores de la construcción en comparación con los bibliotecarios? Probablemente haya cien veces más trabajadores de la construcción que bibliotecarios. Y debido a esto, incluso si el 95 por ciento de los bibliotecarios son mansos y sólo el 5 por ciento de los trabajadores de la construcción son mansos, todavía habrá muchos más trabajadores de la construcción mansos que bibliotecarios mansos. Por lo tanto, si Tom es manso, es más probable que sea un trabajador de la construcción que un bibliotecario.
La idea de que la neocorteza funciona generando una simulación interna y que así es como los humanos tienden a razonar sobre las cosas explica por qué los humanos constantemente responden mal a preguntas como esta. Nosotros imaginar una persona mansa y compárelo con un bibliotecario imaginario y un trabajador de la construcción imaginario. ¿A quién se parece más la persona mansa? La bibliotecaria. Los economistas conductuales llaman a esto heurística representativa. Éste es el origen de muchas formas de prejuicios inconscientes. Si escuchaste la historia de alguien que le robó a tu amigo, no puedes evitar representar una escena imaginada del robo, y no puedes evitar mencionar a los ladrones. ¿Cómo te parecen los ladrones? ¿Qué están usando? ¿De qué raza son? ¿Qué edad tienen? Ésta es una desventaja del razonamiento mediante simulación: completamos personajes y escenas, y a menudo nos perdemos las verdaderas relaciones causales y estadísticas entre las cosas.
Es en las preguntas que requieren simulación donde el lenguaje en el cerebro humano difiere del lenguaje en GPT-3. Las matemáticas son un gran ejemplo de esto. La base de las matemáticas comienza con el etiquetado declarativo. Levantas dos dedos, dos piedras o dos palos, compartes la atención con un estudiante y lo etiquetas. dos. Haces lo mismo con tres de cada y lo etiquetas. tres. Al igual que con los verbos (por ejemplo, correr y durmiendo), en matemáticas etiquetamos operaciones (p. ej., agregar y sustraer). De este modo podemos construir oraciones que representen operaciones matemáticas: tres suman uno.
Los humanos no aprenden matemáticas de la misma manera que GPT-3 aprende matemáticas. De hecho, los humanos no aprenden idioma la forma en que GPT-3 aprende el lenguaje. Los niños no se limitan a escuchar secuencias interminables de palabras hasta que puedan predecir lo que viene a continuación. Se les muestra un objeto, se involucran en un mecanismo no verbal de atención compartida y luego se le da un nombre al objeto. La base del aprendizaje de idiomas no es el aprendizaje secuencial sino la vinculación de símbolos a componentes de la simulación interna ya presente del niño.
Un cerebro humano, pero no GPT-3, puede comprobar las respuestas a operaciones matemáticas mediante simulación mental. Si sumas de uno a tres con los dedos, notarás que siempre obtienes lo que estaba etiquetado anteriormente. cuatro.
Ni siquiera es necesario comprobar esas cosas con los dedos; Puedes imaginar estas operaciones. Esta capacidad de encontrar respuestas a las cosas mediante la simulación se basa en el hecho de que nuestra simulación interna es una representación precisa de la realidad. Cuando me imagino mentalmente sumando un dedo a tres dedos y luego cuento los dedos en mi cabeza, cuento cuatro. No hay ninguna razón por la que ese sea el caso en mi mundo imaginario. Pero es. De manera similar, cuando te pregunto qué ves cuando miras hacia el techo de tu sótano, respondes correctamente porque la casa tridimensional que construiste en tu cabeza obedece a las leyes de la física (no puedes ver a través del techo), y por lo tanto, es obvio para ti que el techo del sótano está necesariamente entre tú y el cielo. La neocorteza evolucionó mucho antes que las palabras, y ya está conectada para representar un mundo simulado que captura un conjunto increíblemente vasto y preciso de reglas físicas y atributos del mundo real.
Para ser justos, GPT-3 puede, de hecho, responder correctamente muchas preguntas matemáticas. GPT-3 podrá responder 1 + 1 =___ porque ha visto esa secuencia mil millones de veces. Cuando respondes la misma pregunta sin pensar, la estás respondiendo como lo haría GPT-3. Pero cuando piensas en por qué 1 + 1 =, cuando te lo demuestras a ti mismo nuevamente imaginando mentalmente la operación de agregar una cosa a otra y recuperar dos cosas, entonces sabes que 1 + 1 = 2 de una manera que GPT-3 no sabe.
El cerebro humano contiene tanto un sistema de predicción del lenguaje y una simulación interior. La mejor evidencia de la idea de que tenemos ambos sistemas son los experimentos que comparan un sistema con el otro. Considere la prueba de reflexión cognitiva, diseñada para evaluar la capacidad de alguien para inhibir su respuesta reflexiva (p. ej., predicciones habituales de palabras) y, en cambio, pensar activamente en la respuesta (p. ej., invocar una simulación interna para razonar sobre ella):
Pregunta 1: Un bate y una pelota cuestan $1,10 en total. El bate cuesta $1,00 más que la pelota. ¿Cuánto cuesta la pelota?
Si eres como la mayoría de las personas, tu instinto, sin pensarlo, es responder diez centavos. Pero si pensaras en esta pregunta, te darías cuenta de que está mal; la respuesta es cinco centavos. Similarmente:
Pregunta 2: Si a 5 máquinas les toma 5 minutos hacer 5 widgets, ¿cuánto tiempo les tomaría a 100 máquinas hacer 100 widgets?
Nuevamente, si usted es como la mayoría de las personas, su instinto le dirá “Cien minutos”, pero si lo piensa bien, se dará cuenta de que la respuesta sigue siendo cinco minutos.
Y, de hecho, a partir de diciembre de 2022, GPT-3 se equivocó en ambas preguntas exactamente de la misma manera que lo hace la gente: GPT-3 respondió diez centavos a la primera pregunta y cien minutos a la segunda.
La cuestión es que los cerebros humanos tienen un sistema automático para predecir palabras (probablemente similar, al menos en principio, a modelos como GPT-3) y una simulación interna. Gran parte de lo que hace que el lenguaje humano sea poderoso no es su sintaxis, sino su capacidad de brindarnos la información necesaria para representar una simulación sobre él y, fundamentalmente, usar estas secuencias de palabras para representarlo. La misma simulación interna que otros humanos que nos rodean..
Este artículo apareció originalmente en Engadget en https://www.engadget.com/hitting-the-books-a-brief-history-of-intelligence-max-bennett-mariner-books-143058118.html?src=rss