加密助手需要能够在波动的市场中进行推理。这意味着更严格、基于生产的基准。 CryptoAnalystBench 通过对长篇加密答案在相关性、时间相关性、深度和数据一致性方面进行评分,帮助推动开源 AI 的推理能力 🧵
2/ 这个基准很重要,因为在快速变化的条件下推理会出现问题 大多数评估检查模型是否能够获取事实。在加密领域,当信号冲突、时间窗口变化和来源不一致时,用户需要一个连贯的立场。如果不衡量这种综合能力,你就会发布听起来合理但实际上会偏离、相互矛盾并误导决策的副驾驶。 CryptoAnalystBench 根据相关性、深度、时间相关性和数据一致性对长篇、分析师风格的回答进行评分,为团队提供可重复的迭代和回归测试基准。它还揭示了代理在实践中出现问题的地方:过时的框架、肤浅的综合、内部矛盾和过于自信的主张。 CryptoAnalystBench 旨在补充像 DMind 和 CryptoBench 这样的真实数据套件,并对声明级的正确性进行单独的事实检查。
3/ 我们通过将生产流量提炼成一个紧凑的数据集来构建 CryptoAnalystBench 我们从最近的一部分 Sentient Chat 查询开始,删除了那些过长以至于无法一致评估或过短以至于无法反映真实意图的提示。 然后,我们将剩余的内容聚类为大约 2,000 个意图组,定义了 11 个类别,并用 AI 标记每个查询,以确保覆盖与真实用户需求保持一致。 从那里,我们在每个类别中删除了近重复项,修剪了模型仅凭训练就能回答的“简单”提示,并手动策划了一个具有代表性的最终快照以供评估。
4/ 我们的数据集设计选择决定了您可以发现哪些失败 近似重复会抬高分数而不改善覆盖率。简单的提示隐藏了工具和合成的失败。 我们设计了 CryptoAnalystBench,以保持多样性,保留真实流量比例,并保持时间的稳健性,以便它能够捕捉漂移和回归,而不是奖励记忆。
5/ 评估循环旨在实现可重复的迭代 我们使用固定的评分标准和仅 JSON 输出对每个答案进行评分,而不透露哪个系统产生了哪个响应。 经过偏差测试后,我们选择了通过 Fireworks 的 DeepSeek v3.1,然后通过平衡响应顺序随机化和每个查询共享评审对话来控制方差,以减少校准漂移。 输出是开发团队迭代所需的:每个维度的分数、每个查询的排名,以及用于回归测试和针对性修复的类别切片。它还明确了限制,即高分析师质量仍然可能隐藏虚构的数字或错误归属的声明。 下一步是保持基准的新鲜度,并与基于追踪的错误定位以及证据约束的事实检查相结合。
28