quando as pessoas dizem que estão a fazer GRPO, não querem dizer que estão a fazer *literalmente* GRPO como foi originalmente formulado. É mais uma questão de vibe. É como quando as pessoas dizem que estão a fazer SGD, mas na verdade querem dizer que estão a fazer AdamW.
não ajudou que todos os nomes de melhorias fossem meio estúpidos. "Dr. GRPO, significa GRPO [D]one [r]ight" vamos lá, cara. tenta um pouco mais.
muitas das correções também vieram do documento DAPO, mas eram uma coisa diferente da coisa no documento que era chamada DAPO, então vamos apenas chamá-la de GRPO a partir de agora. está tudo bem. queremos dizer a boa versão
8,26K