熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
加密助手需要能夠在變動的市場中進行推理。這意味著更嚴格、以生產為基礎的基準。
CryptoAnalystBench 通過對長篇加密答案在相關性、時間相關性、深度和數據一致性方面進行評分,幫助推進開源 AI 的推理能力 🧵

2/ 這個基準很重要,因為在快速變化的條件下推理會中斷。
大多數評估檢查模型是否能夠獲取事實。在加密貨幣領域,當信號衝突、時間窗口變化和來源不一致時,用戶需要一個連貫的立場。如果不測量這種綜合能力,你所推出的輔助工具聽起來似乎合理,但隨後會偏離、相互矛盾,並誤導決策。
CryptoAnalystBench 對長篇、分析風格的回答進行評分,根據相關性、深度、時間相關性和數據一致性,為團隊提供可重複的基準,以便進行迭代和回歸測試。它還揭示了代理在實踐中出現問題的地方:過時的框架、淺薄的綜合、內部矛盾和過於自信的主張。
CryptoAnalystBench 設計用來補充像 DMind 和 CryptoBench 這樣的真實數據套件,並對主張的正確性進行單獨的事實檢查。
3/ 我們通過將生產流量提煉成一個緊湊的數據集來建立 CryptoAnalystBench
我們從最近的一段 Sentient Chat 查詢開始,刪除了那些過長以至於無法一致評估或過短以至於無法反映真實意圖的提示。
然後,我們將剩餘的查詢聚類為大約 2,000 個意圖組,定義了 11 個類別,並用 AI 標記每個查詢,以便覆蓋範圍與真實用戶需求保持一致。
從那裡,我們刪除了每個類別中的近似重複項,修剪了模型僅通過訓練就能回答的“簡單”提示,並手動策劃了一個代表性的最終快照以供評估。
4/ 我們的數據集設計選擇決定了您可以找到哪些失敗
近似重複會膨脹分數而不改善覆蓋率。簡單的提示隱藏了工具和綜合失敗。
我們設計了 CryptoAnalystBench,以保持多樣性,保留真實流量比例,並保持時間穩健,以便捕捉漂移和回歸,而不是獎勵記憶。
5/ 評估循環是為了可重複的迭代而建立的
我們使用固定的評分標準和僅限 JSON 輸出的 LLM 評審對每個答案進行評分,而不透露是哪個系統產生了哪個回應。
在進行偏見測試後,我們選擇了 DeepSeek v3.1 通過 Fireworks,然後通過平衡的回應順序隨機化和每個查詢的共享評審對話來控制變異,以減少校準漂移。
輸出是開發團隊需要進行迭代的內容:每個維度的分數、每個查詢的排名,以及用於回歸測試和針對性修復的類別切片。它還明確指出了限制,即高分析師質量仍然可能隱藏虛構的數字或錯誤歸屬的主張。
接下來的步驟是保持基準的新鮮度,並與基於追蹤的錯誤定位以及證據界定的事實檢查配對。
35
熱門
排行
收藏
