quand les gens ne veulent pas utiliser les complétions de chat pour les déploiements RL, je suis tellement confus parce que, comme, comment comptiez-vous inférer le modèle pour quoi que ce soit d'utile après l'avoir entraîné ? ou ne comptiez-vous pas faire ça ?
@ellev3n11 les complétions + apply_chat_template sont en gros la même chose que ce que font les moteurs d'inférence en coulisses de toute façon :) je trouve ça assez pratique de pouvoir construire/évaluer des environnements avec des modèles API arbitraires, cependant, les complétions de chat simplifient beaucoup cela.
15,69K