当人们不想在RL回合中使用聊天补全时,我感到很困惑,因为你们在训练模型后打算如何推断出任何有用的东西?还是说你们根本没有打算这样做?
@ellev3n11 completions + apply_chat_template 基本上与推理引擎在后台所做的事情是一样的 :) 不过我发现能够使用任意 API 模型构建/评估环境还是相当方便的,聊天完成使这一过程变得更加高效。
15.7K