cuando la gente no quiere usar las finalizaciones de chat para los lanzamientos de RL, estoy tan confundido porque ¿cómo planeabas inferir el modelo para algo útil después de entrenarlo? ¿O no planeabas hacer eso?
@ellev3n11 finalizaciones + apply_chat_template es básicamente lo mismo que lo que hacen los motores de inferencia bajo el capó de todos modos :) Sin embargo, me parece bastante conveniente poder construir / evaluar entornos con modelos de API arbitrarios, las finalizaciones de chat lo agilizan mucho
15.69K