Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kryptocopilots måste kunna resonera under rörliga marknader. Det innebär tuffare, produktionsbaserade riktmärken.
CryptoAnalystBench hjälper till att driva resonemanget för open source-AI genom att betygsätta långformade kryptosvar utifrån relevans, tidsmässig relevans, djup och datakonsistens 🧵

2/ Denna riktmärke är viktig eftersom resonemanget brister under snabbt föränderliga förhållanden
De flesta utvärderingar kontrollerar om en modell kan hämta fakta. Inom krypto behöver användare en sammanhängande hållning när signaler motsätter sig, tidsfönster skiftar och källor är oense. Om du inte mäter den syntesen, shippar du andrepiloter som låter trovärdiga, för att sedan driva, motsäga sig själva och vilseleda beslut.
CryptoAnalystBench ger långformade, analytikerliknande svar om relevans, djup, tidsmässig relevans och datakonsistens, vilket ger team en upprepbar baslinje för iterations- och regressionstestning. Den framträder också där agenter brister i praktiken: inramning, ytlig syntes, interna motsägelser och övermodiga påståenden.
CryptoAnalystBench är utformat för att komplettera verklighetssviter som DMind och CryptoBench, med separata faktakontroller för korrekt påståendenivå.
3/ Vi byggde CryptoAnalystBench genom att destillera produktionstrafik till en kompakt datamängd
Vi började från en nyligen genomförd del av Sentient Chat-frågor och tog bort prompts som antingen var för långa för att utvärdera konsekvent eller för korta för att spegla verklig avsikt.
Sedan klustrade vi resten i ungefär 2 000 avsiktsgrupper, definierade 11 kategorier och AI-taggade varje fråga så att täckningen förblir anpassad till den verkliga användarefterfrågan.
Därifrån tog vi bort nästan dubbletter inom varje kategori, beskärde "enkla" prompts som modellerna kan svara på enbart genom träning, och handkurerade en representativ slutbild för utvärdering.
4/ Våra val av datasetdesign avgör vilka fel du kan hitta
Nästan dubbletter blåser upp poängen utan att förbättra täckningen. Enkla promptar döljer felfunktion i verktyg och syntes.
Vi designade CryptoAnalystBench för att behålla mångfald, bevara verkliga trafikproportioner och vara tidsstabila så att det fångar avvikelser och regressioner istället för att belöna memorering.
5/ Utvärderingsloopen är byggd för reproducerbar iteration
Vi bedömer varje svar med en LLM-domare som använder en fast bedömningsmatris och endast JSON-resultat, utan att avslöja vilket system som gav vilket svar.
Vi valde DeepSeek v3.1 via Fireworks efter bias-testning, sedan kontrollerad varians med balanserad svarsordningsrandomisering och en delad domarkonversation per fråga för att minska kalibreringsdrift.
Resultatet är vad utvecklingsteam behöver iterera: poäng per dimension, rankningar per fråge, och kategoriskivor för regressionstestning och riktade fixar. Det gör också begränsningen tydlig, det vill säga att hög analytikerkvalitet fortfarande kan dölja hallucinerade siffror eller felattribuerade påståenden.
Nästa steg är att hålla benchmarken fräsch i takt och kombinera den med spårbaserad fellokalisering plus bevisbegränsade faktakontroller.
44
Topp
Rankning
Favoriter
