Wenn Leute sagen, sie machen GRPO, meinen sie nicht, dass sie *wörtlich* GRPO so machen, wie es ursprünglich formuliert wurde. Es ist mehr eine Stimmungssache. Es ist wie wenn Leute sagen, sie machen SGD, aber sie meinen eigentlich, dass sie AdamW machen.
Es hat nicht geholfen, dass alle Verbesserungsnamen irgendwie dumm waren. "Dr. GRPO, das steht für GRPO [D]one [r]ight" komm schon, Mann. Versuch es ein bisschen mehr.
Viele der Lösungen stammen auch aus dem DAPO-Papier, waren aber etwas anderes als das, was im Papier als DAPO bezeichnet wurde, also werden wir es ab jetzt GRPO nennen. Das ist in Ordnung. Wir meinen die gute Version.
9,71K