Tencent щойно вбив тонке налаштування і RL з бюджетом 🤯 у $18 Вони розробили метод, який повністю замінює традиційне навчання на основі підкріплення (RL). Це називається GRPO без тренувань. Вона дозволяє LLM навчатися на 100 прикладах, розглядаючи пам'ять як оптимізатор політик.