Tencent acaba de acabar con el ajuste fino y el RL con un presupuesto de $18 🤯 Desarrollaron un método que reemplaza completamente el Aprendizaje por Refuerzo (RL) tradicional. Se llama GRPO sin Entrenamiento. Permite a los LLMs aprender de 100 ejemplos tratando la memoria como un optimizador de políticas.