Kryptokopilottien täytyy pystyä järkeilemään liikkuvia markkinoita. Se tarkoittaa tiukempia, tuotantoon perustuvia vertailuarvoja. CryptoAnalystBench edistää avoimen lähdekoodin tekoälyn perusteluja arvioimalla pitkämuotoisia kryptovastauksia relevanssin, ajallisen merkityksen, syvyyden ja datan johdonmukaisuuden 🧵 perusteella
2/ Tämä vertailuarvo on tärkeä, koska päättely rikkoutuu nopeasti muuttuvissa olosuhteissa Useimmat arvioinnit tarkistavat, pystyykö malli hakemaan faktoja. Kryptossa käyttäjien täytyy olla johdonmukainen kanta, kun signaalit ovat ristiriidassa, aikaikkunat muuttuvat ja lähteet ovat eri mieltä. Jos et mittaa tuota synteesiä, lähetät perämiehiä, jotka kuulostavat uskottavilta, sitten ajelehtivat, ovat ristiriidassa ja johdat päätöksiä harhaan. CryptoAnalystBench arvioi pitkämuotoisia, analyytikkotyylisiä vastauksia relevanssista, syvyydestä, ajallisesta merkityksellisyydestä ja datan johdonmukaisuudesta, tarjoten tiimeille toistettavan lähtökohdan iterointi- ja regressiotestaukseen. Se myös nostaa esiin kohdat, joissa agentit käytännössä murtuvat: vanhentunut kehys, pinnallinen synteesi, sisäiset ristiriidat ja ylimieliset väitteet. CryptoAnalystBench on suunniteltu täydentämään perustotuuspaketteja kuten DMind ja CryptoBench, erillisillä faktuaalisuustarkistuksilla väitteen tason oikeellisuudesta.
3/ Rakensimme CryptoAnalystBenchin tiivistämällä tuotantoliikenteen tiiviiksi aineistoksi Aloitimme äskettäisestä Sentient Chat -kyselyiden viipaleesta ja poistimme kehotteet, jotka olivat joko liian pitkiä arvioitavaksi johdonmukaisesti tai liian lyhyitä kuvaamaan todellista tarkoitusta. Sitten jaoimme loput noin 2 000 intent-ryhmään, määrittelimme 11 kategoriaa ja tekoäly merkitsi jokaisen kyselyn, jotta kattavuus pysyy linjassa todellisen käyttäjäkysynnän kanssa. Sen jälkeen poistimme lähes kaksoiskappaleet kussakin kategoriassa, karsimme "helppoja" kehotuksia, joihin mallit voivat vastata pelkästään koulutuksen perusteella, ja kokosimme käsin edustavan lopullisen tilannekuvan arviointia varten.
4/ Aineiston suunnitteluratkaisumme määräävät, mitä vikoja löydät Lähes kaksoiskappaleet paisuttavat pisteitä parantamatta peittoa. Helpot kehotteet piilottavat työkalu- ja synteesivirheet. Suunnittelimme CryptoAnalystBenchin säilyttämään monimuotoisuuden, säilyttämään todelliset liikennesuhteet ja pitämään ajan kestävänä, jotta se havaitsee driftit ja regressiot sen sijaan, että palkitsisi ulkoa opettelua.
5/ Arviointisilmukka on rakennettu toistettavaa iterointia varten Pisteytämme jokaisen vastauksen LLM-tuomarin kanssa kiinteällä arviointikriteerillä ja JSON tuottaa vain tulokset, paljastamatta, mikä järjestelmä tuotti minkäkin vastauksen. Valitsimme DeepSeek v3.1:n Fireworksin kautta harhatestauksen jälkeen, sitten kontrolloidun varianssin tasapainoisella vastejärjestyksen satunnaistamisella ja jaetulla tuomarin keskustelulla per kysely kalibroinnin driftin vähentämiseksi. Tulokset ovat se, mitä kehitystiimien täytyy iteroida: dimensiopisteet, kyselykohtaiset sijoitukset ja kategoriaviipaleet regressiotestaukseen ja kohdennetuihin korjauksiin. Se myös tekee rajoituksen selväksi, eli korkea analyytikon laatu voi silti piilottaa hallusinoituja numeerisia tai väärin attribuoituja väitteitä. Seuraavat askeleet ovat pitää vertailuarvo tuoreena kadenssissa ja yhdistää se jälkipohjaiseen virheen lokalisointiin sekä todisteisiin rajoitettuihin faktuaalisuustarkistuksiin.
54