wanneer mensen geen gebruik willen maken van chatcompleties voor RL-rollouts ben ik zo verward, want hoe was je van plan om het model voor iets nuttigs te infereren na het trainen? Of was je daar niet van plan om dat te doen?
@ellev3n11 completions + apply_chat_template is eigenlijk hetzelfde als wat inferentie-engines onder de motorkap doen :) ik vind het behoorlijk handig om omgevingen te kunnen bouwen/evalueren met willekeurige API-modellen, maar chat-completions stroomlijnt dat enorm.
16,15K