Tencent vừa tiêu diệt việc tinh chỉnh và RL với ngân sách 18 đô la 🤯 Họ đã phát triển một phương pháp thay thế hoàn toàn cho Học Tăng Cường (RL) truyền thống. Nó được gọi là Training-Free GRPO. Nó cho phép LLM học từ 100 ví dụ bằng cách coi bộ nhớ như một bộ tối ưu hóa chính sách.