تينسنت قضت للتو على الضبط الدقيق والواقع الواقعي بميزانية 🤯 18 دولارا طوروا طريقة تحل محل التعلم المعزز التقليدي (RL) بالكامل. يسمى GRPO بدون تدريب. يسمح لنماذج اللغة الكبيرة بالتعلم من 100 مثال من خلال التعامل مع الذاكرة كمحسن للسياسات.