коли люди не хочуть використовувати доповнення чату для розгортання RL, я так збентежений, наприклад, як ви планували виводити модель для чогось корисного після її навчання? Або ви не планували цього робити?
@ellev3n11 доповнення + apply_chat_template - це в основному те ж саме, що і те, що все одно роблять двигуни логічного висновку під капотом :) Я вважаю досить зручним мати можливість створювати/eval env з довільними моделями API, хоча завершення чату значно спрощує це
15,69K