quando le persone non vogliono usare le completamenti della chat per i rollouts di RL, sono così confuso perché come pensavi di inferire il modello per qualcosa di utile dopo averlo addestrato? O non avevi intenzione di farlo?
@ellev3n11 completions + apply_chat_template è fondamentalmente la stessa cosa di ciò che fanno i motori di inferenza sotto il cofano :) trovo piuttosto conveniente poter costruire/evalutare ambienti con modelli API arbitrari, tuttavia, le chat completions semplificano molto questo processo.
15,7K