wanneer mensen zeggen dat ze GRPO doen, bedoelen ze niet dat ze *letterlijke* GRPO doen zoals het oorspronkelijk was geformuleerd. meer een vibe-ding. het is zoals wanneer mensen zeggen dat ze SGD doen, maar ze bedoelen eigenlijk dat ze AdamW doen
het hielp niet dat alle verbeteringsnamen een beetje dom waren. "Dr. GRPO, het staat voor GRPO [D]one [r]ight" kom op man. probeer iets harder.
veel van de oplossingen kwamen ook uit het DAPO-document, maar waren iets anders dan hetgene in het document dat DAPO werd genoemd, dus we gaan het vanaf nu GRPO noemen. het is goed. we bedoelen de goede versie
15,86K