Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Cripto-copolotas precisam ser capazes de lidar com mercados em movimento. Isso significa padrões mais rigorosos e baseados na produção.
O CryptoAnalystBench ajuda a avançar o raciocínio para IA de código aberto ao avaliar respostas criptográficas de longo prazo por relevância, relevância temporal, profundidade e consistência 🧵 de dados

2/ Este parâmetro é importante porque o raciocínio quebra em condições que mudam rapidamente
A maioria das avaliações verifica se um modelo pode obter fatos. Em cripto, os usuários precisam de uma postura coerente quando os sinais entram em conflito, janelas de tempo mudam e fontes discordam. Se você não mede essa síntese, você envia coplotas que parecem plausíveis, depois deriva, se contradiz e engana decisões.
O CryptoAnalystBench avalia respostas longas, no estilo de analista, quanto à relevância, profundidade, relevância temporal e consistência dos dados, dando às equipes uma linha de base repetível para testes de iteração e regressão. Também aparece onde agentes quebram na prática: enquadramento estagnado, síntese superficial, contradições internas e afirmações excessivamente confiantes.
O CryptoAnalystBench foi projetado para complementar suítes de verdade no terreno como DMind e CryptoBench, com verificações de factualidade separadas para a correção do nível das afirmações.
3/ Construímos o CryptoAnalystBench destilando tráfego de produção em um conjunto de dados compacto
Começamos a partir de uma fatia recente de consultas do Sentient Chat e removemos prompts que eram longos demais para avaliar consistentemente ou curtos demais para refletir a intenção real.
Depois, agrupamos o restante em cerca de 2.000 grupos de intenção, definimos 11 categorias e a IA marcou cada consulta para que a cobertura permaneça alinhada com a demanda real dos usuários.
A partir daí, removemos quase duplicados dentro de cada categoria, podamos prompts "fáceis" que os modelos podem responder apenas com treinamento e selecionamos manualmente um snapshot final representativo para avaliação.
4/ Nossas escolhas de design de conjunto de dados determinam quais falhas você pode encontrar
Quase duplicados inflam as pontuações sem melhorar a cobertura. Prompts fáceis escondem falhas de ferramentas e síntese.
Projetamos o CryptoAnalystBench para manter a diversidade, proporções reais de tráfego e manter o tempo robusto para que ele detecte desvios e regressões em vez de recompensar a memorização.
5/ O loop de avaliação é construído para iteração reprodutível
Avaliamos cada resposta com um juiz LLM usando uma rubrica fixa e o JSON só gera, sem revelar qual sistema produziu qual resposta.
Escolhemos o DeepSeek v3.1 via Fireworks após testes de viés, depois controlamos a variância com randomização por ordem de resposta balanceada e uma conversa compartilhada de juiz por consulta para reduzir a deriva da calibração.
O resultado é o que as equipes de desenvolvimento precisam iterar: pontuações por dimensão, por ranks de consulta e fatias de categoria para testes de regressão e correções direcionadas. Também torna a limitação explícita, ou seja, que alta qualidade de analista ainda pode esconder números alucinados ou alegações mal atribuídas.
Os próximos passos são manter o benchmark atualizado em cadência e combiná-lo com localização de erro baseada em traços, além de verificações de factualidade limitadas por evidências.
37
Melhores
Classificação
Favoritos
