quando le persone dicono che stanno facendo GRPO non intendono dire che stanno facendo *letteralmente* GRPO come era stato originariamente formulato. È più una questione di vibe. È come quando le persone dicono che stanno facendo SGD ma in realtà intendono dire che stanno facendo AdamW
non ha aiutato il fatto che tutti i nomi dei miglioramenti fossero un po' stupidi. "Dr. GRPO, sta per GRPO [D]one [r]ight" dai, sforzati un po' di più.
molte delle correzioni provenivano anche dal documento DAPO, ma erano una cosa diversa rispetto a quella nel documento chiamata DAPO, quindi d'ora in poi la chiameremo GRPO. Va bene. Ci riferiamo alla versione buona.
9,71K