當人們不想使用聊天補全來進行強化學習的回合時,我感到很困惑,因為你們在訓練模型後,打算如何推斷出任何有用的東西?還是你們根本沒有打算這樣做?
@ellev3n11 completions + apply_chat_template 基本上和推理引擎在底層所做的事情是一樣的 :) 不過我覺得能夠使用任意的 API 模型來構建/評估環境是相當方便的,聊天完成的過程大大簡化了這一點。
15.7K