cuando la gente dice que está haciendo GRPO no significa que estén haciendo *literalmente* GRPO tal como fue formulado originalmente. Es más una cuestión de vibra. Es como cuando la gente dice que está haciendo SGD pero realmente quiere decir que está haciendo AdamW
no ayudó que todos los nombres de las mejoras fueran un poco estúpidos. "Dr. GRPO, significa GRPO [D]one [r]ight" vamos hombre. intenta un poco más.
muchas de las correcciones también provienen del documento DAPO, pero eran algo diferente a lo que se llamaba DAPO en el documento, así que simplemente lo llamaremos GRPO de ahora en adelante. está bien. nos referimos a la buena versión.
15,86K