騰訊剛以 18 美元的預算終結了微調和強化學習 🤯 他們開發了一種完全取代傳統強化學習 (RL) 的方法。 這個方法叫做無需訓練的 GRPO。 它允許大型語言模型 (LLMs) 通過將記憶視為策略優化器來從 100 個範例中學習。