Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Крипто-ко пилоты должны уметь рассуждать в условиях изменяющихся рынков. Это означает более строгие, основанные на производстве критерии оценки.
CryptoAnalystBench помогает развивать рассуждения для открытого ИИ, оценивая длинные крипто-ответы по релевантности, временной релевантности, глубине и согласованности данных 🧵

2/ Этот эталон важен, потому что рассуждения ломаются в быстро меняющихся условиях
Большинство оценок проверяют, может ли модель извлекать факты. В криптовалюте пользователям нужна последовательная позиция, когда сигналы противоречат друг другу, временные окна смещаются, а источники расходятся во мнениях. Если вы не измеряете эту синтезу, вы поставляете сопроводительные системы, которые звучат правдоподобно, но затем отклоняются, противоречат сами себе и вводят в заблуждение при принятии решений.
CryptoAnalystBench оценивает длинные ответы в стиле аналитиков по таким критериям, как актуальность, глубина, временная актуальность и согласованность данных, предоставляя командам повторяемую базу для итераций и регрессионного тестирования. Он также выявляет, где агенты ломаются на практике: устаревшие формулировки, поверхностный синтез, внутренние противоречия и чрезмерно уверенные утверждения.
CryptoAnalystBench разработан для дополнения наборов истинных данных, таких как DMind и CryptoBench, с отдельными проверками фактической корректности на уровне утверждений.
3/ Мы создали CryptoAnalystBench, преобразовав производственный трафик в компактный набор данных.
Мы начали с недавнего среза запросов Sentient Chat и удалили подсказки, которые были либо слишком длинными для последовательной оценки, либо слишком короткими, чтобы отразить реальное намерение.
Затем мы сгруппировали оставшиеся запросы примерно в 2,000 групп намерений, определили 11 категорий и пометили каждый запрос с помощью AI, чтобы охват оставался в соответствии с реальным спросом пользователей.
После этого мы удалили почти дубликаты в каждой категории, убрали "легкие" подсказки, на которые модели могут ответить только на основе обучения, и вручную отобрали представительный финальный снимок для оценки.
4/ Выборы дизайна нашего набора данных определяют, какие ошибки вы можете найти
Близкие дубликаты завышают оценки, не улучшая охват. Простые подсказки скрывают ошибки инструментов и синтеза.
Мы разработали CryptoAnalystBench, чтобы сохранить разнообразие, сохранить реальные пропорции трафика и оставаться устойчивым ко времени, чтобы он фиксировал дрейф и регрессии, а не вознаграждал за запоминание.
5/ Цикл оценки построен для воспроизводимой итерации
Мы оцениваем каждый ответ с помощью судьи LLM, используя фиксированную рубрику и выводы только в формате JSON, не раскрывая, какая система произвела какой ответ.
Мы выбрали DeepSeek v3.1 через Fireworks после тестирования на предвзятость, затем контролировали вариацию с помощью сбалансированной рандомизации порядка ответов и общего разговора судьи на каждый запрос, чтобы уменьшить дрейф калибровки.
Вывод — это то, что командам разработчиков нужно для итерации: оценки по каждому измерению, ранжирование по каждому запросу и категории для регрессионного тестирования и целевых исправлений. Это также делает ограничение явным, а именно то, что высокое качество аналитиков все еще может скрывать галлюцинированные числовые данные или неправильно приписанные утверждения.
Следующие шаги — поддерживать актуальность эталона с определенной периодичностью и сочетать его с локализацией ошибок на основе трассировки плюс проверки фактической достоверности с ограничениями на доказательства.
50
Топ
Рейтинг
Избранное
