Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Saoud Rizwan

Agenci kodowania mają trudności z pracą nad złożonymi zadaniami w dużych, chaotycznych repozytoriach, a to się nie poprawi, dopóki nie przestaniemy używać nasyconych benchmarków z testami, które nie przypominają prawdziwego inżynierii. Dlatego zobowiązujemy się do przeznaczenia 1 miliona dolarów na cline-bench, nasz otwarty benchmark dla rzeczywistych zadań kodowania!

Ogłaszamy cline-bench, otwarty benchmark w rzeczywistym świecie dla agentycznego kodowania. cline-bench jest zbudowany na podstawie rzeczywistych zadań inżynieryjnych od uczestniczących deweloperów, gdzie modele graniczne zawiodły, a ludzie musieli interweniować. Każde zaakceptowane zadanie staje się w pełni reprodukowalnym środowiskiem RL z początkowym zrzutem repozytorium, rzeczywistym promptem i testami prawdy z kodu, który ostatecznie został wdrożony. Dla laboratoriów i badaczy oznacza to: > możesz oceniać modele na autentycznej pracy inżynieryjnej, a nie na zagadkach leetcode. > otrzymujesz środowiska kompatybilne z Harbor i nowoczesnymi narzędziami oceny do porównań obok siebie. > możesz używać tych samych zadań do SFT i RL, aby trening i ocena były osadzone w rzeczywistych przepływach pracy inżynieryjnej. Dziś otwieramy wkłady i zaczynamy zbierać zadania przez Cline Provider. Udział jest opcjonalny i ograniczony do otwartych repozytoriów. Kiedy trudne zadanie zaskoczy model, a ty interweniujesz, ta porażka może zostać przekształcona w ustandaryzowane środowisko, które cała społeczność może badać, benchmarkować i trenować. Jeśli pracujesz nad trudnymi problemami open source, szczególnie komercyjnymi OSS, chciałbym osobiście zaprosić cię do pomocy. Zobowiązujemy się do sponsorowania 1 miliona dolarów dla utrzymujących otwarte źródła, aby wzięli udział w inicjatywie cline-bench. "Cline-bench to doskonały przykład tego, jak otwarte, rzeczywiste benchmarki mogą posunąć cały ekosystem naprzód. Wysokiej jakości, zweryfikowane zadania kodowania osadzone w rzeczywistych przepływach pracy deweloperów są dokładnie tym, czego potrzebujemy, aby znacząco mierzyć modele graniczne, odkrywać tryby awarii i pchać stan sztuki naprzód." – @shyamalanadkat, Szef Oceny Zastosowań @OpenAI "Nous Research koncentruje się na szkoleniu i rozpowszechnianiu modeli, które doskonale radzą sobie z zadaniami w rzeczywistym świecie. cline-bench będzie integralnym narzędziem w naszych wysiłkach, aby maksymalizować wydajność i zrozumieć możliwości naszych modeli." – @Teknium, Szef Po Treningu @nousresearch "Jesteśmy ogromnymi fanami wszystkiego, co Cline robi, aby wspierać ekosystem AI open source, i jesteśmy niezwykle podekscytowani wsparciem dla wydania cline-bench. Wysokiej jakości otwarte środowiska dla agentycznego kodowania są niezwykle rzadkie. To wydanie będzie miało ogromne znaczenie zarówno jako ocena możliwości, jak i jako testowe środowisko po treningu dla trudnych zadań w rzeczywistym świecie, posuwając nasze wspólne zrozumienie i możliwości w zakresie autonomicznego rozwoju oprogramowania naprzód." – @willccbb, Lider Badań @PrimeIntellect: "Podzielamy zaangażowanie Cline'a w open source i wierzymy, że udostępnienie tego benchmarku wszystkim pomoże nam nadal pchać granice możliwości kodowania naszych LLM-ów." – @b_roziere, Naukowiec Badawczy @MistralAI: Szczegóły znajdują się w blogu:

Najlepsze

Ranking

Ulubione