Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Les copilotes crypto doivent être capables de raisonner dans des marchés en mouvement. Cela signifie des références plus strictes et ancrées dans la production.
CryptoAnalystBench aide à faire progresser le raisonnement pour l'IA open-source en notant les réponses longues sur la crypto en fonction de leur pertinence, de leur pertinence temporelle, de leur profondeur et de la cohérence des données 🧵

2/ Ce benchmark est important car le raisonnement se rompt dans des conditions en évolution rapide.
La plupart des évaluations vérifient si un modèle peut récupérer des faits. Dans le domaine de la crypto, les utilisateurs ont besoin d'une position cohérente lorsque les signaux sont en conflit, que les fenêtres temporelles changent et que les sources ne s'accordent pas. Si vous ne mesurez pas cette synthèse, vous expédiez des copilotes qui semblent plausibles, puis dérivent, se contredisent et induisent en erreur les décisions.
CryptoAnalystBench évalue des réponses longues, de style analyste, sur la pertinence, la profondeur, la pertinence temporelle et la cohérence des données, offrant aux équipes une base répétable pour l'itération et les tests de régression. Il met également en lumière où les agents échouent en pratique : cadrage obsolète, synthèse superficielle, contradictions internes et affirmations trop confiantes.
CryptoAnalystBench est conçu pour compléter les suites de vérité de terrain comme DMind et CryptoBench, avec des vérifications de factualité séparées pour la correction au niveau des affirmations.
3/ Nous avons construit CryptoAnalystBench en distillant le trafic de production en un ensemble de données compact.
Nous avons commencé par un extrait récent des requêtes de Sentient Chat et avons supprimé les invites qui étaient soit trop longues pour être évaluées de manière cohérente, soit trop courtes pour refléter une véritable intention.
Ensuite, nous avons regroupé le reste en environ 2 000 groupes d'intention, défini 11 catégories, et AI a étiqueté chaque requête afin que la couverture reste alignée avec la demande réelle des utilisateurs.
À partir de là, nous avons supprimé les quasi-doublons dans chaque catégorie, élagué les invites "faciles" auxquelles les modèles peuvent répondre uniquement par l'entraînement, et avons soigneusement sélectionné un instantané final représentatif pour l'évaluation.
4/ Nos choix de conception de jeu de données déterminent les échecs que vous pouvez trouver
Les doublons proches gonflent les scores sans améliorer la couverture. Des invites faciles cachent les échecs d'outil et de synthèse.
Nous avons conçu CryptoAnalystBench pour maintenir la diversité, préserver les proportions de trafic réel et rester robuste dans le temps afin de détecter les dérives et les régressions au lieu de récompenser la mémorisation.
5/ La boucle d'évaluation est conçue pour une itération reproductible
Nous notons chaque réponse avec un juge LLM en utilisant une grille fixe et des sorties uniquement en JSON, sans révéler quel système a produit quelle réponse.
Nous avons choisi DeepSeek v3.1 via Fireworks après des tests de biais, puis contrôlé la variance avec une randomisation équilibrée de l'ordre des réponses et une conversation de juge partagée par requête pour réduire la dérive de calibration.
La sortie est ce dont les équipes de développement ont besoin pour itérer : des scores par dimension, des classements par requête et des tranches de catégorie pour les tests de régression et les corrections ciblées. Cela rend également la limitation explicite, à savoir qu'une qualité d'analyste élevée peut encore cacher des chiffres hallucinés ou des affirmations mal attribuées.
Les prochaines étapes consistent à maintenir le benchmark à jour sur une cadence et à l'associer à une localisation d'erreur basée sur des traces ainsi qu'à des vérifications de factualité limitées par des preuves.
46
Meilleurs
Classement
Favoris
