когда люди не хотят использовать завершения чата для RL-выкатов, я так запутан, потому что как вы планировали использовать модель для чего-то полезного после ее обучения? Или вы не планировали это делать?
@ellev3n11 завершения + apply_chat_template по сути одно и то же, что делают движки вывода за кулисами :) мне довольно удобно иметь возможность создавать/оценивать окружения с произвольными API моделями, хотя завершения чата значительно упрощают этот процесс.
16,14K