DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Saoud Rizwan

Agen pengkodean berjuang dalam pekerjaan kompleks di repositori besar yang berantakan, dan ini tidak akan menjadi lebih baik sampai kita berhenti menggunakan tolok ukur jenuh dengan pengujian yang tidak terlihat seperti rekayasa nyata. Itu sebabnya kami berkomitmen $1 juta untuk cline-bench, tolok ukur terbuka kami untuk tugas pengkodean dunia nyata!

Kami mengumumkan cline-bench, tolok ukur open source dunia nyata untuk pengkodean agen. Cline-Bench dibangun dari tugas rekayasa dunia nyata dari pengembang yang berpartisipasi di mana model Frontier gagal dan manusia harus turun tangan. Setiap tugas yang diterima menjadi lingkungan RL yang dapat direproduksi sepenuhnya dengan snapshot repo awal, prompt nyata, dan tes kebenaran dasar dari kode yang akhirnya dikirim. Untuk laboratorium dan peneliti, ini berarti: > Anda dapat mengevaluasi model pada pekerjaan teknik asli, bukan teka-teki leetcode. > Anda mendapatkan lingkungan yang kompatibel dengan Harbor dan perkakas eval modern untuk perbandingan berdampingan. > Anda dapat menggunakan tugas yang sama untuk SFT dan RL sehingga pelatihan dan evaluasi tetap didasarkan pada alur kerja rekayasa yang nyata. Hari ini kami membuka kontribusi dan mulai mengumpulkan tugas melalui Penyedia Cline. Partisipasi bersifat opsional dan terbatas pada repositori open source. Ketika tugas sulit membingungkan model dan Anda campur tangan, kegagalan itu dapat diubah menjadi lingkungan standar yang dapat dipelajari, diukur dan dilatih oleh seluruh komunitas. Jika Anda mengerjakan masalah open source yang sulit, terutama OSS komersial, saya secara pribadi ingin mengundang Anda untuk membantu. Kami berkomitmen $1 juta untuk mensponsori pengelola open source untuk mengambil bagian dalam inisiatif cline-bench. "Cline-bench adalah contoh bagus tentang bagaimana tolok ukur dunia nyata yang terbuka dapat memajukan seluruh ekosistem. Tugas pengkodean terverifikasi berkualitas tinggi yang didasarkan pada alur kerja pengembang yang sebenarnya adalah apa yang kami butuhkan untuk mengukur model perbatasan secara bermakna, mengungkap mode kegagalan, dan mendorong canggih." – @shyamalanadkat, Kepala Edal Terapan @OpenAI "Nous Research difokuskan pada pelatihan dan proliferasi model yang unggul dalam tugas-tugas dunia nyata. Cline-bench akan menjadi alat integral dalam upaya kami untuk memaksimalkan kinerja dan memahami kemampuan model kami." – @Teknium, Kepala Pasca Pelatihan @nousresearch "Kami adalah penggemar berat dari semua yang telah dilakukan Cline untuk memberdayakan ekosistem AI open source, dan sangat bersemangat untuk mendukung rilis cline-bench. Lingkungan terbuka berkualitas tinggi untuk pengkodean agen sangat jarang. Rilis ini akan sangat membantu baik sebagai evaluasi kemampuan maupun sebagai testbed pasca-pelatihan untuk tugas-tugas dunia nyata yang menantang, memajukan pemahaman dan kemampuan kolektif kami seputar pengembangan perangkat lunak otonom." – @willccbb, Pemimpin Penelitian @PrimeIntellect: "Kami berbagi komitmen Cline terhadap open source dan percaya bahwa tolok ukur ini tersedia untuk semua orang akan membantu kami terus mendorong kemampuan pengkodean perbatasan LLM kami." – @b_roziere, Ilmuwan Riset @MistralAI: Detail lengkapnya ada di blog:

Teratas

Peringkat

Favorit