ketika orang tidak ingin menggunakan penyelesaian obrolan untuk peluncuran RL, saya sangat bingung karena bagaimana Anda berencana menyimpulkan model untuk sesuatu yang berguna setelah melatihnya? Atau apakah Anda tidak berencana untuk melakukan itu?
@ellev3n11 penyelesaian + apply_chat_template pada dasarnya adalah hal yang sama dengan apa yang dilakukan mesin inferensi di bawah tenda :) Saya merasa cukup nyaman untuk dapat membangun/mengevaluasi env dengan model API sewenang-wenang, penyelesaian obrolan sangat merampingkan itu
15,7K