A Tencent acabou com o ajuste fino e a vida real com um orçamento 🤯 de $18 Eles desenvolveram um método que substitui completamente o Aprendizado por Reforço (RL) tradicional. Chama-se GRPO Sem Treinamento. Ele permite que LLMs aprendam a partir de 100 exemplos tratando a memória como um otimizador de políticas.