Deepseek ha hecho recientemente bastante zumbido En la comunidad de IA, gracias a su impresionante desempeño a costos relativamente bajos. Creo que esta es una oportunidad perfecta para profundizar en cómo se entrenan los modelos de idiomas grandes (LLM). En este artículo, nos centraremos en el lado de las cosas de refuerzo de aprendizaje (RL): cubriremos TRPO, PPO y, más recientemente, GRPO (¡no se preocupe, explicaré todos estos términos pronto!)
He tenido como objetivo mantener este artículo relativamente fácil de leer y accesible, minimizando las matemáticas, por lo que no necesitará una experiencia de aprendizaje de refuerzo profundo para seguir. Sin embargo, asumiré que tiene cierta familiaridad con el aprendizaje automático, el aprendizaje profundo y una comprensión básica de cómo funcionan los LLM.
¡Espero que disfrutes el artículo!
Los 3 pasos del entrenamiento LLM
Antes de sumergirnos en los detalles de RL, recapitulemos brevemente las tres etapas principales de capacitar a un modelo de idioma grande:
- Pre-entrenamiento: El modelo está entrenado en un conjunto de datos masivo para predecir el siguiente token en una secuencia basada en tokens anteriores.
- Ajuste de fino supervisado (SFT): el modelo es entonces afinado en datos más específicos y alineados con instrucciones específicas.
- Aprendizaje de refuerzo (a menudo llamado RLHF Para el aprendizaje de refuerzo con comentarios humanos): Este es el foco de este artículo. El objetivo principal es refinar aún más las alineaciones de las respuestas con las preferencias humanas, permitiendo que el modelo aprenda directamente de la retroalimentación.
Refuerzo de aprendizaje básicos

Antes de sumergirnos más profundamente, revisemos brevemente las ideas centrales detrás del aprendizaje de refuerzo.
RL es bastante sencillo de entender a un alto nivel: un agente interactúa con un ambiente. El agente reside en un estado dentro del medio ambiente y puede tomar comportamiento para hacer la transición a otros estados. Cada acción produce un premio Del medio ambiente: así es como el entorno proporciona retroalimentación que guía las acciones futuras del agente.
Considere el siguiente ejemplo: un robot (el agente) navega (e intenta salir) laberinto (el entorno).
- El estado es la situación actual del entorno (la posición del robot en el laberinto).
- El robot puede tomar diferente comportamiento: Por ejemplo, puede avanzar, girar a la izquierda o girar a la derecha.
- Navegar con éxito hacia la salida produce un recompensa positivamientras golpea una pared o atascado en el laberinto da como resultado Recompensas negativas.
¡Fácil! Ahora, hagamos ahora una analogía de cómo se usa RL en el contexto de LLM.
RL en el contexto de LLMS

Cuando se usa durante el entrenamiento de LLM, RL se define mediante los siguientes componentes:
- El LLM en sí mismo es el agente
- Ambiente: Todo externo a la LLM, incluidas las indicaciones del usuario, los sistemas de retroalimentación y otra información contextual. Este es básicamente el marco con el que el LLM interactúa durante el entrenamiento.
- Comportamiento: Estas son respuestas a una consulta del modelo. Más específicamente: estos son los tokens que el LLM decide generar en respuesta a una consulta.
- Estado: La consulta actual que se responde junto con Tokens, el LLM ha generado hasta ahora (es decir, las respuestas parciales).
- Recompensas: Esto es un poco más complicado aquí: a diferencia del ejemplo de laberinto anterior, hay generalmente Sin recompensa binaria. En el contexto de LLMS, las recompensas generalmente provienen de un modelo de recompensaque genera una puntuación para cada par (consulta, respuesta). Este modelo está entrenado a partir de datos anotados por humanos (de ahí “RLHF”) donde los anotadores clasifican diferentes respuestas. El objetivo es que las respuestas de mayor calidad reciban recompensas más altas.
Nota: En algunos casos, las recompensas pueden ser más simples. Por ejemplo, en Deepseekmath, enfoques basados en reglas se puede usar porque las respuestas matemáticas tienden a ser más deterministas (respuesta correcta o incorrecta)
Política es el concepto final que necesitamos por ahora. En términos RL, una política es simplemente la estrategia para decidir qué acción tomar. En el caso de un LLM, la política genera una distribución de probabilidad sobre posibles tokens en cada paso: en resumen, esto es lo que el modelo usa para probar el siguiente token para generar. Concretamente, la política está determinada por los parámetros (pesos) del modelo. Durante el entrenamiento de RL, ajustamos estos parámetros para que el LLM sea más probable que produzca tokens “mejores”, es decir, fichas que producen puntajes de recompensa más altos.
A menudo escribimos la política como:

dónde a es la acción (un token para generar), s el estado (la consulta y los tokens generados hasta ahora), y th (Parámetros del modelo).
¡Esta idea de encontrar la mejor política es el objetivo de RL! Dado que no tenemos datos etiquetados (como lo hacemos en el aprendizaje supervisado) Utilizamos recompensas para ajustar nuestra política para tomar mejores medidas. (En términos de LLM: ajustamos los parámetros de nuestro LLM para generar mejores tokens).
TRPO (optimización de políticas de la región de confianza)
Una analogía con el aprendizaje supervisado
Tomemos un paso rápido a cómo funciona típicamente el aprendizaje supervisado. Ha etiquetado datos y usa una función de pérdida (como la entropía cruzada) para medir qué tan cerca están las predicciones de su modelo a las etiquetas verdaderas.

Luego podemos usar algoritmos como backpropagation y descenso de gradiente para minimizar nuestra función de pérdida y actualizar los pesos th de nuestro modelo.
¡Recuerde que nuestra política también genera probabilidades! En ese sentido, es análogo a las predicciones del modelo en el aprendizaje supervisado … estamos tentados a escribir algo como:

dónde s es el estado actual y a es una posible acción.
A (s, a) se llama el función de ventaja y mide cuán buena es la acción elegida en el estado actual, en comparación con una línea de base. Esto se parece mucho a la noción de etiqueta en el aprendizaje supervisado pero derivado de recompensas en lugar de etiquetado explícito. Para simplificarpodemos escribir la ventaja como:

En la práctica, la línea de base se calcula utilizando un función de valor. Este es un término común en RL que explicaré más tarde. Lo que necesita saber por ahora es que mide la recompensa esperada que recibiríamos si continuamos siguiendo la política actual del estado s.
¿Qué es TRPO?
TRPO (optimización de políticas de la región de confianza) se basa en esta idea de usar la función de ventaja, pero agrega un ingrediente crítico para estabilidad: él restricciones Hasta qué punto la nueva política puede desviarse de la antigua política en cada paso de actualización (similar a lo que hacemos con el descenso de gradiente de lotes, por ejemplo).
- Presenta un término de divergencia KL (verlo como una medida de similitud) entre la política actual y la antigua:

- También divide la política por la antigua política. Esta relación, multiplicada por la función de ventaja, nos da una idea de cuán beneficiosa es cada actualización en relación con la antigua política.
Poniendo todo junto, Trpo intenta maximizar Un objetivo sustituto (que implica la ventaja y la relación política) sujeto a un KL Restricción de divergencia.

PPO (optimización de políticas proximales)
Si bien TRPO fue un avance significativo, ya no se usa ampliamente en la práctica, especialmente para capacitar a los LLM, debido a sus cálculos de gradiente computacionalmente intensivos.
En cambio, PPO es ahora el enfoque preferido en la mayoría de la arquitectura LLMS, incluidos ChatGPT, Gemini y más.
En realidad es bastante similar a TRPO, pero en lugar de hacer cumplir una restricción dura en la divergencia de KLPPO presenta un “cortado Objetivo sustituto “que restringe implícitamente las actualizaciones de políticas y simplifica enormemente el proceso de optimización.
Aquí hay un desglose de la función de objetivo PPO que maximizamos para ajustar los parámetros de nuestro modelo.

GRPO (optimización de políticas relativas del grupo)
¿Cómo se obtiene la función de valor?
Primero hablemos más sobre el ventaja y el Funciones de valor Presenté antes.
En configuraciones típicas (como PPO), un modelo de valor está entrenado junto con la política. Su objetivo es predecir el valor de cada acción que tomamos (cada token generado por el modelo), utilizando las recompensas que obtenemos (recuerde que el valor debe representar la recompensa acumulada esperada).
Así es como funciona en la práctica. Tome la consulta “¿Qué es 2+2?” Como ejemplo. Nuestro modelo sale “2+2 es 4” y recibe una recompensa de 0.8 para esa respuesta. Luego vamos hacia atrás y atribuimos recompensas con descuento a cada prefijo:
- “2+2 es 4” obtiene un valor de 0.8
- “2+2 es” (1 token hacia atrás) obtiene un valor de 0.8do
- “2+2” (2 fichas hacia atrás) obtiene un valor de 0.8C²
- etc.
dónde do es el factor de descuento (0.9 por ejemplo). Luego usamos estos prefijos y valores asociados para entrenar el modelo de valor.
Nota importante: el modelo de valor y el modelo de recompensa son dos cosas diferentes. El modelo de recompensa está entrenado antes del proceso RL y utiliza pares de (consulta, respuesta) y clasificación humana. El modelo de valor está capacitado simultáneamente a la política, y tiene como objetivo predecir la futura recompensa esperada en cada paso del proceso de generación.
¿Qué hay de nuevo en Grpo?
Incluso si en la práctica, el modelo de recompensa a menudo se deriva de la política (capacitación solo de la “cabeza”), aún terminamos manteniendo muchos modelos y manejando múltiples procedimientos de capacitación (política, recompensa, modelo de valor). Grpo Agiliza esto mediante la introducción de un método más eficiente.
¿Recuerdas lo que dije antes?

En PPO, decidimos usar nuestra función de valor como línea de base. Grpo elige algo más: esto es lo que hace Grpo: concretamente, Para cada consultaGRPO genera un grupo de respuestas (grupo de tamaño G) y utiliza sus recompensas para calcular la ventaja de cada respuesta como un puntaje z:

dónde rᵢ es la recompensa del i-Th respuesta y metro y a son la desviación media y estándar de las recompensas en ese grupo.
Esto naturalmente elimina la necesidad de un modelo de valor separado. ¡Esta idea tiene mucho sentido cuando lo piensas! Se alinea con la función de valor que presentamos antes y también medidas, en cierto sentido, una recompensa “esperada” que podamos obtener. Además, este nuevo método está bien adaptado a nuestro problema porque los LLM pueden generar fácilmente múltiples salidas no deterministas usando un bajo temperatura (Controla la aleatoriedad de la generación de tokens).
Esta es la idea principal detrás de GRPO: deshacerse del modelo de valor.
Finalmente, Grpo agrega un Divergencia KL término (para ser exacto, GRPO utiliza una aproximación simple de la divergencia KL para mejorar aún más el algoritmo) directamente con su objetivo, comparando la política actual con un política de referencia (a menudo el modelo post-SFT).
Vea la formulación final a continuación:

Y … ¡eso es sobre todo para Grpo! Espero que esto le brinde una visión general clara del proceso: todavía se basa en las mismas ideas fundamentales que TRPO y PPO, pero presenta mejoras adicionales para hacer que el entrenamiento sea más eficiente, más rápido y más barato, factores clave detrás El éxito de Deepseek.
Conclusión
El aprendizaje de refuerzo se ha convertido en una piedra angular para capacitar a los modelos de idiomas grandes de hoy, particularmente a través de PPO, y más recientemente GRPO. Cada método se basa en los mismos fundamentos RL (estados, acciones, recompensas y políticas), pero agrega su propio giro para equilibrar la estabilidad, la eficiencia y la alineación humana:
• Trpo Introdujo limitaciones de políticas estrictas a través de KL Divergence
• PPO alivió esas limitaciones con un objetivo recortado
• Grpo Dio un paso adicional al eliminar el requisito del modelo de valor y el uso de la normalización de recompensas grupales. Por supuesto, Deepseek también se beneficia de otras innovaciones, como datos de alta calidad y otras estrategias de capacitación, ¡pero eso es para otro momento!
Espero que este artículo le haya dado una imagen más clara de cómo se conectan y evolucionan estos métodos. Creo que el aprendizaje de refuerzo se convertirá El enfoque principal en el entrenamiento LLMS Para mejorar su rendimiento, superando el pre-entrenamiento y el SFT para impulsar las innovaciones futuras.
Si está interesado en sumergirse más profundo, no dude en consultar las referencias a continuación o explorar mis publicaciones anteriores.
¡Gracias por leer, y no dude en dejar un aplaudir y un comentario!
¿Quiere aprender más sobre transformadores o sumergirse en las matemáticas detrás de la maldición de la dimensionalidad? Mira mis artículos anteriores:
Referencias: