Krypto-copiloter må kunne resonnere under bevegelige markeder. Det betyr tøffere, produksjonsbaserte benchmarks. CryptoAnalystBench hjelper til med å fremme resonnement for åpen kildekode-AI ved å vurdere langformede kryptosvar basert på relevans, tidsmessig relevans, dybde og datakonsistens 🧵
2/ Denne referansen er viktig fordi resonnement bryter sammen under raskt skiftende forhold De fleste evalueringer sjekker om en modell kan hente fakta. I krypto trenger brukerne en sammenhengende holdning når signaler konflikter, tidsvinduer skifter og kilder er uenige. Hvis du ikke måler den syntesen, sender du co-piloter som høres plausible ut, for så å drive, motsi seg selv og feillede beslutninger. CryptoAnalystBench gir langformede, analytikerlignende svar på relevans, dybde, tidsmessig relevans og datakonsistens, og gir teamene et repeterbart utgangspunkt for iterasjons- og regresjonstesting. Den kommer også til overflaten der agenter bryter sammen i praksis: utdatert innramming, overfladisk syntese, interne motsetninger og overmodige påstander. CryptoAnalystBench er designet for å supplere sannhetspakker på bakken som DMind og CryptoBench, med separate faktasjekker for korrekt påstandsnivå.
3/ Vi bygde CryptoAnalystBench ved å destillere produksjonstrafikk til et kompakt datasett Vi startet med en nylig del av Sentient Chat-forespørsler og fjernet spørsmål som enten var for lange til å evaluere konsekvent eller for korte til å reflektere reell intensjon. Deretter grupperte vi resten i omtrent 2 000 intensjonsgrupper, definerte 11 kategorier, og AI-merket hver spørring slik at dekningen holder seg i tråd med reell brukeretterspørsel. Derfra fjernet vi nesten duplikater innenfor hver kategori, beskar «enkle» prompts som modellene kan svare på kun ved trening, og håndkuraterte et representativt sluttbilde for evaluering.
4/ Våre valg av datasettdesign avgjør hvilke feil du kan finne Nesten duplikater blåser opp poengsummene uten å forbedre dekningen. Enkle prompts skjuler feil i verktøy og syntese. Vi designet CryptoAnalystBench for å opprettholde mangfold, bevare reelle trafikkandeler og være tidsrobuste slik at det fanger opp drift og regresjoner i stedet for å belønne memorering.
5/ Evalueringssløyfen er bygget for reproduserbar iterasjon Vi vurderer hvert svar med en LLM-dommer som bruker en fast vurderingsmatris, og kun JSON-resultater, uten å avsløre hvilket system som ga hvilket svar. Vi valgte DeepSeek v3.1 via Fireworks etter biastesting, deretter kontrollerte vi varians med balansert responsrekkefølge-randomisering og en delt dommersamtale per spørring for å redusere kalibreringsdrift. Resultatet er det utviklerteamene trenger å iterere: per dimensjon-score, per spørringsrangering og kategoriskjæringer for regresjonstesting og målrettede rettelser. Den gjør også begrensningen eksplisitt, nemlig at høy analytikerkvalitet fortsatt kan skjule hallusinerte tallstatistikker eller feilaktig tilskrevne påstander. Neste steg er å holde benchmarken frisk på en rytme og kombinere den med sporbasert feillokalisering pluss bevisbegrensede faktasjekker.
52