DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Cripto-copolotas precisam ser capazes de lidar com mercados em movimento. Isso significa padrões mais rigorosos e baseados na produção. O CryptoAnalystBench ajuda a avançar o raciocínio para IA de código aberto ao avaliar respostas criptográficas de longo prazo por relevância, relevância temporal, profundidade e consistência 🧵 de dados

2/ Este parâmetro é importante porque o raciocínio quebra em condições que mudam rapidamente A maioria das avaliações verifica se um modelo pode obter fatos. Em cripto, os usuários precisam de uma postura coerente quando os sinais entram em conflito, janelas de tempo mudam e fontes discordam. Se você não mede essa síntese, você envia coplotas que parecem plausíveis, depois deriva, se contradiz e engana decisões. O CryptoAnalystBench avalia respostas longas, no estilo de analista, quanto à relevância, profundidade, relevância temporal e consistência dos dados, dando às equipes uma linha de base repetível para testes de iteração e regressão. Também aparece onde agentes quebram na prática: enquadramento estagnado, síntese superficial, contradições internas e afirmações excessivamente confiantes. O CryptoAnalystBench foi projetado para complementar suítes de verdade no terreno como DMind e CryptoBench, com verificações de factualidade separadas para a correção do nível das afirmações.

3/ Construímos o CryptoAnalystBench destilando tráfego de produção em um conjunto de dados compacto Começamos a partir de uma fatia recente de consultas do Sentient Chat e removemos prompts que eram longos demais para avaliar consistentemente ou curtos demais para refletir a intenção real. Depois, agrupamos o restante em cerca de 2.000 grupos de intenção, definimos 11 categorias e a IA marcou cada consulta para que a cobertura permaneça alinhada com a demanda real dos usuários. A partir daí, removemos quase duplicados dentro de cada categoria, podamos prompts "fáceis" que os modelos podem responder apenas com treinamento e selecionamos manualmente um snapshot final representativo para avaliação.

4/ Nossas escolhas de design de conjunto de dados determinam quais falhas você pode encontrar Quase duplicados inflam as pontuações sem melhorar a cobertura. Prompts fáceis escondem falhas de ferramentas e síntese. Projetamos o CryptoAnalystBench para manter a diversidade, proporções reais de tráfego e manter o tempo robusto para que ele detecte desvios e regressões em vez de recompensar a memorização.

5/ O loop de avaliação é construído para iteração reprodutível Avaliamos cada resposta com um juiz LLM usando uma rubrica fixa e o JSON só gera, sem revelar qual sistema produziu qual resposta. Escolhemos o DeepSeek v3.1 via Fireworks após testes de viés, depois controlamos a variância com randomização por ordem de resposta balanceada e uma conversa compartilhada de juiz por consulta para reduzir a deriva da calibração. O resultado é o que as equipes de desenvolvimento precisam iterar: pontuações por dimensão, por ranks de consulta e fatias de categoria para testes de regressão e correções direcionadas. Também torna a limitação explícita, ou seja, que alta qualidade de analista ainda pode esconder números alucinados ou alegações mal atribuídas. Os próximos passos são manter o benchmark atualizado em cadência e combiná-lo com localização de erro baseada em traços, além de verificações de factualidade limitadas por evidências.

Melhores

Classificação

Favoritos