Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Los cripto-coplots deben ser capaces de razonar bajo mercados en movimiento. Eso significa estándares más duros y basados en la producción.
CryptoAnalystBench ayuda a avanzar en el razonamiento para la IA de código abierto calificando respuestas criptográficas de formato largo según relevancia, relevancia temporal, profundidad y consistencia 🧵 de datos

2/ Este punto de referencia es importante porque el razonamiento se rompe en condiciones que cambian rápidamente
La mayoría de las evaluaciones comprueban si un modelo puede obtener hechos. En cripto, los usuarios necesitan una postura coherente cuando las señales entran en conflicto, las ventanas temporales cambian y las fuentes discrepan. Si no mides esa síntesis, envias coplotas que suenan plausibles, luego te desvías, se contradicen y enfundas decisiones.
CryptoAnalystBench califica respuestas de formato largo y estilo analista sobre relevancia, profundidad, relevancia temporal y consistencia de datos, proporcionando a los equipos una línea base repetible para pruebas de iteración y regresión. También surge donde los agentes fallan en la práctica: encuadres obsoletos, síntesis superficial, contradicciones internas y afirmaciones demasiado confiadas.
CryptoAnalystBench está diseñado para complementar suites de verdad terrenal como DMind y CryptoBench, con comprobaciones de factualidad separadas para verificar la corrección a nivel de afirmación.
3/ Construimos CryptoAnalystBench destilando el tráfico de producción en un conjunto de datos compacto
Empezamos con una sección reciente de consultas de Sentient Chat y eliminamos prompts que eran demasiado largos para evaluar de forma consistente o demasiado cortos para reflejar la intención real.
Luego agrupamos el resto en aproximadamente 2.000 grupos de intenciones, definimos 11 categorías y la IA etiquetó cada consulta para que la cobertura se mantenga alineada con la demanda real de los usuarios.
A partir de ahí, eliminamos casi duplicados dentro de cada categoría, podamos los prompts "fáciles" que los modelos pueden responder solo con entrenamiento y seleccionamos a mano una instantánea final representativa para su evaluación.
4/ Nuestras elecciones de diseño de conjuntos determinan qué fallos puedes encontrar
Los casi duplicados inflan las puntuaciones sin mejorar la cobertura. Los prompts sencillos ocultan fallos de herramientas y síntesis.
Diseñamos CryptoAnalystBench para mantener la diversidad, preservar proporciones de tráfico real y mantener el tiempo robusto, de modo que detecte derivas y regresiones en lugar de recompensar la memorización.
5/ El bucle de evaluación está construido para iteraciones reproducibles
Puntuamos cada respuesta con un juez de LLM usando una rúbrica fija y JSON solo emite resultados, sin revelar qué sistema produjo qué respuesta.
Elegimos DeepSeek v3.1 mediante Fireworks tras pruebas de sesgo, luego controlamos la varianza mediante aleatorización equilibrada por orden de respuesta y una conversación compartida de juez por consulta para reducir la deriva de calibración.
El resultado es lo que los equipos de desarrollo necesitan iterar: puntuaciones por dimensión, por rankings de consulta y segmentos de categoría para pruebas de regresión y correcciones específicas. También deja explícita la limitación, es decir, que una alta calidad de los analistas puede ocultar números alucinados o afirmaciones mal atribuidas.
Los siguientes pasos son mantener el benchmark fresco en una cadencia y combinarlo con localización de errores basada en trazas más comprobaciones de factualidad acotadas por evidencia.
35
Populares
Ranking
Favoritas
