kun ihmiset sanovat tekevänsä GRPO:ta, he eivät tarkoita, että he tekevät *kirjaimellisesti* GRPO:ta sellaisena kuin se alun perin muotoiltiin. enemmän tunnelmaa. se on kuin silloin, kun ihmiset sanovat tekevänsä SGD:tä, mutta he todella tarkoittavat tekevänsä AdamW:tä
Ei auttanut, että kaikki parannusten nimet olivat tavallaan typeriä. "Tohtori GRPO, se tarkoittaa GRPO [D]one [r]ight" tule mies. Yritä vähän kovemmin
Monet korjauksista tulivat myös DAPO-paperista, mutta ne olivat eri asia kuin DAPO:ksi, joten kutsumme sitä tästä lähtien vain GRPO:ksi. se on hyvä. Tarkoitamme hyvää versiota
5,05K