Krypto-Co-Piloten müssen in der Lage sein, in sich bewegenden Märkten zu argumentieren. Das bedeutet härtere, produktionsorientierte Benchmarks. CryptoAnalystBench hilft, das Denken für Open-Source-AI voranzutreiben, indem es lange Krypto-Antworten hinsichtlich Relevanz, zeitlicher Relevanz, Tiefe und Datenkonsistenz bewertet 🧵
2/ Dieser Benchmark ist wichtig, weil das Denken unter sich schnell ändernden Bedingungen bricht. Die meisten Bewertungen überprüfen, ob ein Modell Fakten abrufen kann. Im Krypto-Bereich benötigen die Nutzer eine kohärente Haltung, wenn Signale widersprüchlich sind, Zeitfenster sich verschieben und Quellen uneinig sind. Wenn Sie diese Synthese nicht messen, liefern Sie Co-Piloten, die plausibel klingen, dann abdriften, sich selbst widersprechen und Entscheidungen irreführen. CryptoAnalystBench bewertet lange, analytische Antworten hinsichtlich Relevanz, Tiefe, zeitlicher Relevanz und Datenkonsistenz und bietet Teams eine wiederholbare Basis für Iteration und Regressionstests. Es zeigt auch auf, wo Agenten in der Praxis versagen: veraltete Rahmenbedingungen, oberflächliche Synthese, interne Widersprüche und übermäßige Zuversicht. CryptoAnalystBench ist darauf ausgelegt, die Ground-Truth-Suiten wie DMind und CryptoBench zu ergänzen, mit separaten Faktizitätsprüfungen für die Richtigkeit auf Anspruchsebene.
3/ Wir haben CryptoAnalystBench entwickelt, indem wir den Produktionsverkehr in einen kompakten Datensatz destilliert haben. Wir haben mit einem aktuellen Ausschnitt von Sentient Chat-Anfragen begonnen und Eingabeaufforderungen entfernt, die entweder zu lang waren, um sie konsistent zu bewerten, oder zu kurz, um die tatsächliche Absicht widerzuspiegeln. Dann haben wir den Rest in ungefähr 2.000 Intent-Gruppen geclustert, 11 Kategorien definiert und jede Anfrage mit KI getaggt, damit die Abdeckung mit der tatsächlichen Nutzeranfrage übereinstimmt. Von dort aus haben wir nahezu doppelte Einträge innerhalb jeder Kategorie entfernt, „einfache“ Eingabeaufforderungen, die Modelle allein aus dem Training beantworten können, gekürzt und eine repräsentative finale Momentaufnahme für die Bewertung handverlesen.
4/ Unsere Entscheidungen zum Design des Datensatzes bestimmen, welche Fehler Sie finden können. Nahe Duplikate erhöhen die Werte, ohne die Abdeckung zu verbessern. Einfache Eingabeaufforderungen verbergen Tool- und Synthesefehler. Wir haben CryptoAnalystBench so gestaltet, dass Vielfalt erhalten bleibt, die realen Verkehrsproportionen bewahrt werden und es zeitrobust bleibt, damit es Drift und Regressionen erfasst, anstatt Memorierung zu belohnen.
5/ Die Evaluationsschleife ist für reproduzierbare Iterationen aufgebaut Wir bewerten jede Antwort mit einem LLM-Richter anhand eines festen Rubriks und JSON-Ausgaben, ohne zu offenbaren, welches System welche Antwort produziert hat. Wir haben DeepSeek v3.1 über Fireworks nach Bias-Tests ausgewählt und dann die Varianz mit einer ausgewogenen Zufallsanordnung der Antworten und einem gemeinsamen Richtergespräch pro Anfrage kontrolliert, um Kalibrierungsdrift zu reduzieren. Die Ausgabe ist das, was Entwicklungsteams benötigen, um zu iterieren: Punktzahlen pro Dimension, Ranglisten pro Anfrage und Kategorieschnitte für Regressionstests und gezielte Korrekturen. Es macht auch die Einschränkung deutlich, dass eine hohe Analystenqualität immer noch halluzinierte Zahlen oder falsch zugeordnete Ansprüche verbergen kann. Die nächsten Schritte bestehen darin, den Benchmark regelmäßig aktuell zu halten und ihn mit trace-basierten Fehlerlokalisierungen sowie evidenzbasierten Faktizitätsprüfungen zu kombinieren.
80