Крипто-ко пилоты должны уметь рассуждать в условиях изменяющихся рынков. Это означает более строгие, основанные на производстве критерии оценки. CryptoAnalystBench помогает развивать рассуждения для открытого ИИ, оценивая длинные крипто-ответы по релевантности, временной релевантности, глубине и согласованности данных 🧵
2/ Этот эталон важен, потому что рассуждения ломаются в быстро меняющихся условиях Большинство оценок проверяют, может ли модель извлекать факты. В криптовалюте пользователям нужна последовательная позиция, когда сигналы противоречат друг другу, временные окна смещаются, а источники расходятся во мнениях. Если вы не измеряете эту синтезу, вы поставляете сопроводительные системы, которые звучат правдоподобно, но затем отклоняются, противоречат сами себе и вводят в заблуждение при принятии решений. CryptoAnalystBench оценивает длинные ответы в стиле аналитиков по таким критериям, как актуальность, глубина, временная актуальность и согласованность данных, предоставляя командам повторяемую базу для итераций и регрессионного тестирования. Он также выявляет, где агенты ломаются на практике: устаревшие формулировки, поверхностный синтез, внутренние противоречия и чрезмерно уверенные утверждения. CryptoAnalystBench разработан для дополнения наборов истинных данных, таких как DMind и CryptoBench, с отдельными проверками фактической корректности на уровне утверждений.
3/ Мы создали CryptoAnalystBench, преобразовав производственный трафик в компактный набор данных. Мы начали с недавнего среза запросов Sentient Chat и удалили подсказки, которые были либо слишком длинными для последовательной оценки, либо слишком короткими, чтобы отразить реальное намерение. Затем мы сгруппировали оставшиеся запросы примерно в 2,000 групп намерений, определили 11 категорий и пометили каждый запрос с помощью AI, чтобы охват оставался в соответствии с реальным спросом пользователей. После этого мы удалили почти дубликаты в каждой категории, убрали "легкие" подсказки, на которые модели могут ответить только на основе обучения, и вручную отобрали представительный финальный снимок для оценки.
4/ Выборы дизайна нашего набора данных определяют, какие ошибки вы можете найти Близкие дубликаты завышают оценки, не улучшая охват. Простые подсказки скрывают ошибки инструментов и синтеза. Мы разработали CryptoAnalystBench, чтобы сохранить разнообразие, сохранить реальные пропорции трафика и оставаться устойчивым ко времени, чтобы он фиксировал дрейф и регрессии, а не вознаграждал за запоминание.
5/ Цикл оценки построен для воспроизводимой итерации Мы оцениваем каждый ответ с помощью судьи LLM, используя фиксированную рубрику и выводы только в формате JSON, не раскрывая, какая система произвела какой ответ. Мы выбрали DeepSeek v3.1 через Fireworks после тестирования на предвзятость, затем контролировали вариацию с помощью сбалансированной рандомизации порядка ответов и общего разговора судьи на каждый запрос, чтобы уменьшить дрейф калибровки. Вывод — это то, что командам разработчиков нужно для итерации: оценки по каждому измерению, ранжирование по каждому запросу и категории для регрессионного тестирования и целевых исправлений. Это также делает ограничение явным, а именно то, что высокое качество аналитиков все еще может скрывать галлюцинированные числовые данные или неправильно приписанные утверждения. Следующие шаги — поддерживать актуальность эталона с определенной периодичностью и сочетать его с локализацией ошибок на основе трассировки плюс проверки фактической достоверности с ограничениями на доказательства.
50