一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

當人們不想使用聊天補全來進行強化學習的回合時，我感到很困惑，因為你們在訓練模型後，打算如何推斷出任何有用的東西？還是你們根本沒有打算這樣做？

@ellev3n11 completions + apply_chat_template 基本上和推理引擎在底層所做的事情是一樣的 :) 不過我覺得能夠使用任意的 API 模型來構建/評估環境是相當方便的，聊天完成的過程大大簡化了這一點。

15.7K

熱門

排行

收藏