quando as pessoas não querem usar conclusões de bate-papo para lançamentos de RL, fico tão confuso porque como você estava planejando inferir o modelo para algo útil depois de treiná-lo? Ou você não estava planejando fazer isso?
@ellev3n11 conclusões + apply_chat_template é basicamente a mesma coisa que os mecanismos de inferência fazem nos bastidores de qualquer maneira:) Acho bastante conveniente poder construir / avaliar envs com modelos de API arbitrários, porém, as conclusões de bate-papo simplificam muito isso
16,16K