A Tencent acabou de acabar com o fine-tuning e o RL com um orçamento de $18 🤯 Eles desenvolveram um método que substitui completamente o Aprendizado por Reforço (RL) tradicional. Chama-se Training-Free GRPO. Permite que LLMs aprendam com 100 exemplos tratando a memória como um otimizador de políticas.