když lidé nechtějí používat dokončování chatu pro zavádění RL, jsem tak zmatený, protože jak jste plánovali odvodit model pro něco užitečného po jeho vytrénování? Nebo jste to neplánovali?
@ellev3n11 dokončení + apply_chat_template je v podstatě to samé, co stejně dělají inferenční motory pod kapotou :) Považuji za docela pohodlné, že mohu vytvářet/vyhodnocovat envs s libovolnými modely API, dokončování chatu to hodně zjednodušuje
16,16K