腾讯刚刚以 18 美元的预算终结了微调和强化学习 🤯 他们开发了一种完全取代传统强化学习 (RL) 的方法。 它被称为无训练 GRPO。 它允许 LLM 从 100 个示例中学习,将记忆视为策略优化器。