DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Saoud Rizwan

Kodlama ajanları büyük ve dağınık depolarda karmaşık işlerde zorlanıyor ve bu, gerçek mühendisliğe hiç benzemeyen testlerle doygun benchmarkları kullanmayı bırakana kadar düzelmeyecek. Bu yüzden, gerçek dünya kodlama görevleri için açık kıyaslama ölçütümüz olan cline-bench'e 1 milyon dolar taahhüt ediyoruz!

Ajanik kodlama için gerçek dünyada açık kaynak kıyaslası olan cline-bench'i duyuruyoruz. Cline-Bench, Frontier modellerinin başarısız olduğu ve insanların devreye girmek zorunda kaldığı katılımcı geliştiricilerin gerçek dünya mühendislik görevlerinden oluşturulmuştur. Her kabul edilen görev, başlangıç deposu anlık görüntüsü, gerçek bir prompt ve nihayetinde gönderilen koddan alınan gerçek testlerle tamamen tekrarlanabilir bir RL ortamına dönüşür. Laboratuvarlar ve araştırmacılar için bu şu anlam taşıyor: > modelleri gerçek mühendislik çalışmalarına göre değerlendirebilirsiniz, leetcode bulmacalarına değil. > Harbor ile uyumlu ortamlar ve modern değerlendirme araçları ile yan yana karşılaştırma elde ediyorsunuz. > SFT ve RL için aynı görevleri kullanabilirsiniz, böylece eğitim ve değerlendirme gerçek mühendislik iş akışlarına dayanır. Bugün Cline Provider aracılığıyla bağışları açıyoruz ve görevleri toplamaya başlıyoruz. Katılım isteğe bağlıdır ve açık kaynak depolarla sınırlıdır. Zor bir görev bir modeli engellediğinde ve müdahale ediyorsanız, bu başarısızlık tüm topluluğun inceleyebileceği, ölçütleyebileceği ve eğitim alabileceği standartlaştırılmış bir ortama dönüştürülebilir. Özellikle ticari OSS olmak üzere zor açık kaynak problemleri üzerinde çalışıyorsanız, sizi şahsen yardımcı olmaya davet etmek isterim. Açık kaynak koruyucuları desteklemek için 1 milyon dolar taahhüt ediyoruz. "Cline-bench, açık, gerçek dünya kıyaslamalarının tüm ekosistemi nasıl ileriye taşıyabileceğinin harika bir örneği. Gerçek geliştirici iş akışlarına dayanan yüksek kaliteli, doğrulanmış kodlama görevleri, sınır modellerini anlamlı bir şekilde ölçmek, arıza modlarını ortaya çıkarmak ve en son teknolojiyi geliştirmek için tam ihtiyacımız olan şeylerdir." – @shyamalanadkat, Uygulamalı Değerlendirmeler @OpenAI Başkanı "Nous Research, gerçek dünya görevlerinde başarılı modelleri eğitmeye ve yaygınlaştırmaya odaklanıyor. Cline-Bench, modellerimizin performansını en üst düzeye çıkarmak ve yeteneklerini anlama çabalarımızda vazgeçilmez bir araç olacak." – @Teknium, Eğitim Sonrası Başkanı @nousresearch "Cline'ın açık kaynak yapay zeka ekosistemini güçlendirmek için yaptığı her şeyin büyük hayranlarıyız ve cline-bench sürümünü desteklemekten son derece heyecanlıyız. Ajanik kodlama için yüksek kaliteli açık ortamlar son derece nadirdir. Bu sürüm, hem yeteneklerin değerlendirilmesi hem de zorlu gerçek dünya görevleri için eğitim sonrası bir test platformu olarak büyük bir katkı sağlayacak, otonom yazılım geliştirme konusundaki ortak anlayışımızı ve yeteneklerimizi geliştirecek." – @willccbb, Araştırma Lideri @PrimeIntellect: "Cline'ın açık kaynak konusundaki bağlılığını paylaşıyoruz ve bu kıyaslamayı herkese sunmanın, LLM'lerimizin sınır kodlama yeteneklerini ilerletmemize yardımcı olacağına inanıyoruz." – @b_roziere, Araştırmacı @MistralAI: Tüm detaylar blogda yer almaktadır:

En İyiler

Sıralama

Takip Listesi