Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Os copilotos de criptomoeda precisam ser capazes de raciocinar em mercados em movimento. Isso significa benchmarks mais rigorosos e fundamentados na produção.
O CryptoAnalystBench ajuda a avançar o raciocínio para IA de código aberto, avaliando respostas longas sobre criptomoeda com base na relevância, relevância temporal, profundidade e consistência dos dados 🧵

2/ Este benchmark é importante porque o raciocínio falha em condições de rápida mudança.
A maioria das avaliações verifica se um modelo consegue buscar fatos. No crypto, os usuários precisam de uma postura coerente quando os sinais estão em conflito, as janelas de tempo mudam e as fontes discordam. Se você não medir essa síntese, você entrega copilotos que parecem plausíveis, mas depois se desviam, se contradizem e enganam decisões.
O CryptoAnalystBench pontua respostas em formato longo, estilo analista, com base na relevância, profundidade, relevância temporal e consistência de dados, fornecendo às equipes uma linha de base repetível para iteração e testes de regressão. Também revela onde os agentes falham na prática: enquadramento desatualizado, síntese superficial, contradições internas e afirmações excessivamente confiantes.
O CryptoAnalystBench foi projetado para complementar suítes de verdade fundamental como DMind e CryptoBench, com verificações de factualidade separadas para a correção em nível de afirmação.
3/ Construímos o CryptoAnalystBench destilando o tráfego de produção em um conjunto de dados compacto.
Começámos a partir de uma fatia recente de consultas do Sentient Chat e removemos os prompts que eram demasiado longos para avaliar de forma consistente ou demasiado curtos para refletir a intenção real.
Depois, agrupámos o restante em cerca de 2.000 grupos de intenção, definimos 11 categorias e etiquetámos cada consulta com AI para que a cobertura se mantenha alinhada com a demanda real dos utilizadores.
A partir daí, removemos duplicados próximos dentro de cada categoria, eliminámos prompts "fáceis" que os modelos podem responder apenas com o treinamento e curamos manualmente uma amostra final representativa para avaliação.
4/ As escolhas de design do nosso conjunto de dados determinam quais falhas você pode encontrar
Dúplicatas próximas inflacionam as pontuações sem melhorar a cobertura. Prompts fáceis escondem falhas de ferramenta e síntese.
Projetamos o CryptoAnalystBench para manter a diversidade, preservar as proporções de tráfego real e ser robusto ao tempo, de modo que capture desvios e regressões em vez de recompensar a memorização.
5/ O ciclo de avaliação é construído para iteração reprodutível
Pontuamos cada resposta com um juiz LLM usando um rubrica fixa e saídas apenas em JSON, sem revelar qual sistema produziu qual resposta.
Escolhemos o DeepSeek v3.1 via Fireworks após testes de viés, depois controlamos a variância com randomização da ordem de resposta balanceada e uma conversa de juiz compartilhada por consulta para reduzir a deriva de calibração.
A saída é o que as equipes de desenvolvimento precisam para iterar: pontuações por dimensão, classificações por consulta e fatias de categoria para testes de regressão e correções direcionadas. Também torna a limitação explícita, ou seja, que uma alta qualidade de analista ainda pode ocultar numéricos alucinatórios ou reivindicações mal atribuídas.
Os próximos passos são manter o benchmark atualizado em uma cadência e emparelhá-lo com localização de erros baseada em rastreamento, além de verificações de factualidade limitadas por evidências.
80
Top
Classificação
Favoritos
