トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
暗号通貨の協力者は、市場が動く中で理屈をつける能力が必要です。つまり、より厳格で生産に根ざしたベンチマークを設けるということです。
CryptoAnalystBenchは、長尺の暗号回答を関連性、時間的関連性、深さ、データの整合🧵性で評価することで、オープンソースAIの推論を進めます

2/ このベンチマークは、急速に変化する状況では推論が破綻するため重要です
ほとんどの評価はモデルが事実を取得できるかどうかを確認します。暗号資産では、シグナルの矛盾や時間軸の変化、情報源の意見の相違に対して、ユーザーは一貫した立場を取る必要があります。その総合を測らなければ、もっともらしい副操縦士を送り出し、その後は偏り、矛盾し、判断を誤らせることになります。
CryptoAnalystBenchは、関連性、深さ、時間的関連性、データの一貫性に関する長文のアナリストスタイルの回答を評価し、チームに反復および回帰テストの繰り返し可能なベースラインを提供します。また、エージェントが実際に壊れる場所、すなわち陳腐なフレーミング、浅い統合、内部矛盾、過信した主張などが表面化します。
CryptoAnalystBenchは、DMindやCryptoBenchのようなグラウンドトゥルーススイートを補完するよう設計されており、主張レベルの正確性を判断するための別々の事実性チェックを備えています。
3/ CryptoAnalystBenchは、本番トラフィックをコンパクトなデータセットにまとめて構築しました
最近のSentient Chatクエリの断片から始め、評価が一貫性に欠ける長すぎる、あるいは本当の意図を反映できない短いプロンプトを削除しました。
残りは約2,000の意図グループにまとめ、11のカテゴリーを定義し、AIで各クエリにタグ付けしてカバレッジを実際のユーザーの需要に合わせて調整しました。
そこから、各カテゴリ内のほぼ重複を除去し、モデルがトレーニングだけで回答できる「簡単な」プロンプトを編集し、評価用に代表的な最終スナップショットを手作業で厳選しました。
4/ データセットの設計選択によって、どの失敗が見つかるかが決まります
ほぼ重複はカバレッジを改善せずにスコアを膨らませます。簡単なプロンプトはツールや合成の失敗を隠します。
CryptoAnalystBenchは多様性を維持し、実際のトラフィック比率を維持し、時間を強固に保つために設計しました。これにより、暗記を重視するのではなく、ドリフトや回帰を捉えやすくしています。
5/ 評価ループは再現可能な反復のために構築されています
各回答はLLM審査員が固定されたルーブリックとJSON出力のみを用いて採点し、どのシステムがどの回答を生み出したかは明かさずに行います。
バイアステストの後、Fireworks経由でDeepSeek v3.1を選択し、バランスの取れた応答順序ランダム化と、クエリごとに共有ジャッジ会話を施してキャリブレーションドリフトを減らしました。
出力は開発チームが反復処理すべきもので、次元ごとのスコア、クエリごとのランク、回帰分析やターゲットを絞った修正のためのカテゴリスライスです。また、高いアナリストの質でも幻覚的な数値や誤った帰属の主張を隠すことはできるという制限も明確にしています。
次のステップは、ベンチマークを常に新鮮なリズムで保ち、トレースベースの誤差位置化や証拠に基づく事実性チェックと組み合わせることです。
72
トップ
ランキング
お気に入り
