Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Crypto copilots moeten in staat zijn om te redeneren onder veranderende markten. Dat betekent strengere, op productie gebaseerde benchmarks.
CryptoAnalystBench helpt de redenering voor open-source AI te verbeteren door lange crypto-antwoorden te beoordelen op relevantie, temporele relevantie, diepgang en dataconsistentie 🧵

2/ Deze benchmark is belangrijk omdat redeneringen falen in snel veranderende omstandigheden
De meeste evaluaties controleren of een model feiten kan ophalen. In crypto hebben gebruikers een samenhangend standpunt nodig wanneer signalen conflicteren, tijdvensters verschuiven en bronnen het niet eens zijn. Als je die synthese niet meet, lever je copiloten die plausibel klinken, maar vervolgens afdrijven, zichzelf tegenspreken en beslissingen misleiden.
CryptoAnalystBench beoordeelt lange, analytische antwoorden op relevantie, diepgang, temporele relevantie en dataconsistentie, waardoor teams een herhaalbare basislijn krijgen voor iteratie en regressietests. Het brengt ook aan het licht waar agenten in de praktijk falen: verouderde kaders, oppervlakkige synthese, interne tegenstrijdigheden en te zelfverzekerde claims.
CryptoAnalystBench is ontworpen om complementair te zijn aan grondwaarheidsuites zoals DMind en CryptoBench, met aparte feitelijke controles voor de juistheid op claimniveau.
3/ We hebben CryptoAnalystBench gebouwd door productie verkeer te destilleren tot een compact dataset
We zijn begonnen met een recente steekproef van Sentient Chat-queries en hebben prompts verwijderd die ofwel te lang waren om consistent te evalueren of te kort om de echte intentie weer te geven.
Daarna hebben we de rest gegroepeerd in ongeveer 2.000 intentiegroepen, 11 categorieën gedefinieerd en heeft AI elke query getagd zodat de dekking in lijn blijft met de echte vraag van gebruikers.
Van daaruit hebben we bijna duplicaten binnen elke categorie verwijderd, "eenvoudige" prompts die modellen alleen uit training kunnen beantwoorden, verwijderd en handmatig een representatieve eindsnapshot voor evaluatie samengesteld.
4/ Onze datasetontwerpkeuzes bepalen welke fouten je kunt vinden
Bijna duplicaten verhogen de scores zonder de dekking te verbeteren. Eenvoudige prompts verbergen tool- en synthese-fouten.
We hebben CryptoAnalystBench ontworpen om diversiteit te behouden, de werkelijke verkeersverhoudingen te behouden en tijdrobust te blijven, zodat het drift en regressies opvangt in plaats van memorisatie te belonen.
5/ De evaluatielus is gebouwd voor reproduceerbare iteratie
We beoordelen elk antwoord met een LLM-jurylid met behulp van een vaste rubric en JSON-uitvoer, zonder te onthullen welk systeem welke reactie heeft geproduceerd.
We hebben DeepSeek v3.1 via Fireworks gekozen na bias-testen, en vervolgens de variatie gecontroleerd met gebalanceerde responsorderrandomisatie en een gedeeld jurygesprek per query om calibratiedrift te verminderen.
De output is wat ontwikkelteams nodig hebben om te itereren: scores per dimensie, rangen per query en categorie-slices voor regressietests en gerichte fixes. Het maakt ook de beperking expliciet, namelijk dat hoge analistenkwaliteit nog steeds hallucinated numerics of verkeerd toegeschreven claims kan verbergen.
De volgende stappen zijn om de benchmark actueel te houden op een cadans en deze te koppelen aan trace-gebaseerde foutlokalisatie plus bewijsgebonden feitelijkheidcontroles.
47
Boven
Positie
Favorieten
