Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Các trợ lý Crypto cần có khả năng lý luận trong các thị trường biến động. Điều đó có nghĩa là các tiêu chuẩn khắt khe hơn, dựa trên sản xuất.
CryptoAnalystBench giúp nâng cao khả năng lý luận cho AI mã nguồn mở bằng cách chấm điểm các câu trả lời dài về tiền điện tử dựa trên tính liên quan, tính liên quan theo thời gian, độ sâu và tính nhất quán của dữ liệu 🧵

2/ Tiêu chuẩn này quan trọng vì lý do suy luận bị gián đoạn trong các điều kiện thay đổi nhanh chóng
Hầu hết các đánh giá kiểm tra xem một mô hình có thể lấy được sự thật hay không. Trong lĩnh vực tiền điện tử, người dùng cần một lập trường nhất quán khi các tín hiệu mâu thuẫn, khoảng thời gian thay đổi và các nguồn thông tin không đồng nhất. Nếu bạn không đo lường được sự tổng hợp đó, bạn sẽ phát hành những trợ lý nghe có vẻ hợp lý, sau đó lại trôi dạt, tự mâu thuẫn và dẫn đến quyết định sai lầm.
CryptoAnalystBench đánh giá các câu trả lời dạng dài, phong cách phân tích dựa trên tính liên quan, độ sâu, tính liên quan theo thời gian và tính nhất quán của dữ liệu, cung cấp cho các đội một cơ sở lặp lại cho việc lặp lại và kiểm tra hồi quy. Nó cũng chỉ ra nơi mà các tác nhân gặp sự cố trong thực tế: khung thông tin lỗi thời, tổng hợp nông, mâu thuẫn nội bộ và những tuyên bố tự tin quá mức.
CryptoAnalystBench được thiết kế để bổ sung cho các bộ sự thật cơ bản như DMind và CryptoBench, với các kiểm tra tính xác thực riêng biệt cho độ chính xác ở cấp độ tuyên bố.
3/ Chúng tôi đã xây dựng CryptoAnalystBench bằng cách tinh lọc lưu lượng sản xuất thành một tập dữ liệu gọn nhẹ.
Chúng tôi bắt đầu từ một phần gần đây của các truy vấn Sentient Chat và loại bỏ những yêu cầu quá dài để đánh giá nhất quán hoặc quá ngắn để phản ánh ý định thực sự.
Sau đó, chúng tôi đã phân nhóm phần còn lại thành khoảng 2.000 nhóm ý định, định nghĩa 11 danh mục, và AI đã gán nhãn cho mỗi truy vấn để đảm bảo rằng phạm vi vẫn phù hợp với nhu cầu thực tế của người dùng.
Từ đó, chúng tôi đã loại bỏ các bản sao gần giống trong mỗi danh mục, cắt giảm những yêu cầu "dễ" mà các mô hình có thể trả lời chỉ từ việc đào tạo, và đã chọn lọc thủ công một bức tranh đại diện cuối cùng để đánh giá.
4/ Các lựa chọn thiết kế tập dữ liệu của chúng tôi xác định những thất bại nào bạn có thể tìm thấy
Các bản sao gần giống làm tăng điểm số mà không cải thiện độ bao phủ. Các yêu cầu dễ dàng che giấu các thất bại của công cụ và tổng hợp.
Chúng tôi đã thiết kế CryptoAnalystBench để giữ sự đa dạng, bảo tồn tỷ lệ lưu lượng thực và duy trì tính ổn định theo thời gian để nó phát hiện sự trôi dạt và suy giảm thay vì thưởng cho việc ghi nhớ.
5/ Vòng lặp đánh giá được xây dựng để lặp lại có thể tái tạo
Chúng tôi chấm điểm mỗi câu trả lời bằng một trọng tài LLM sử dụng một tiêu chí cố định và chỉ xuất JSON, mà không tiết lộ hệ thống nào đã sản xuất phản hồi nào.
Chúng tôi đã chọn DeepSeek v3.1 thông qua Fireworks sau khi kiểm tra thiên lệch, sau đó kiểm soát biến thiên với việc ngẫu nhiên hóa thứ tự phản hồi cân bằng và một cuộc trò chuyện trọng tài chung cho mỗi truy vấn để giảm độ trôi hiệu chuẩn.
Đầu ra là những gì các đội phát triển cần để lặp lại: điểm số theo từng chiều, xếp hạng theo từng truy vấn và các phân khúc danh mục cho việc kiểm tra hồi quy và sửa chữa có mục tiêu. Nó cũng làm rõ giới hạn, đó là chất lượng phân tích cao vẫn có thể che giấu các số liệu ảo hoặc các tuyên bố bị gán sai.
Các bước tiếp theo là giữ cho tiêu chuẩn luôn mới mẻ theo chu kỳ và kết hợp nó với việc định vị lỗi dựa trên dấu vết cùng với các kiểm tra tính xác thực có giới hạn bằng chứng.
44
Hàng đầu
Thứ hạng
Yêu thích
