DApp Store | Centrum Web3 pro události a hry

Populární témata

Saoud Rizwan

Programující agenti mají problémy s náročnou prací ve velkých neuspořádaných repozitářích a to se nezlepší, dokud přestaneme používat přesycené benchmarky s testy, které vůbec nevypadají jako skutečné inženýrství. Proto investujeme 1 milion dolarů do cline-bench, našeho otevřeného měřítka pro reálné programátorské úkoly!

Oznamujeme cline-bench, reálný open source benchmark pro agentické kódování. Cline-Bench je postaven na skutečných inženýrských úkolech od zúčastněných vývojářů, kde modely Frontier selhaly a museli zasáhnout lidé. Každý přijatý úkol se stává plně reprodukovatelným RL prostředím s úvodním snímkem repozitáře, skutečným promptem a testy pravdivosti z kódu, který byl nakonec odeslán. Pro laboratoře a výzkumníky to znamená: > můžete hodnotit modely podle skutečné inženýrské práce, ne podle leetcode hádanek. > získáte prostředí kompatibilní s Harborem a moderními hodnotícími nástroji pro srovnání vedle sebe. > stejné úkoly můžete použít i pro SFT a RL, takže školení a hodnocení zůstávají zakotveny v reálných inženýrských pracovních postupech. Dnes otevíráme příspěvky a začínáme vybírat úkoly prostřednictvím poskytovatele Cline. Účast je dobrovolná a omezená na open source repozitáře. Když těžký úkol zablokuje model a vy zasáhnete, lze tento neúspěch proměnit ve standardizované prostředí, které může celá komunita studovat, porovnávat a trénovat. Pokud pracujete na obtížných open source problémech, zejména komerčních OSS, rád bych vás osobně pozval k pomoci. Věnujeme 1 milion dolarů sponzorování správců open source, aby se zapojili do iniciativy cline-bench. "Cline-bench je skvělým příkladem toho, jak otevřené, reálné benchmarky mohou posunout celý ekosystém vpřed. Vysoce kvalitní, ověřené programátorské úkoly založené na skutečných pracovních postupech vývojářů jsou přesně to, co potřebujeme k smysluplnému měření modelů na hranicích, odhalení způsobů selhání a posunu na úroveň techniky." – @shyamalanadkat, vedoucí aplikovaných evaluací @OpenAI "Nous Research se zaměřuje na trénování a rozšiřování modelů, které vynikají v reálných úkolech. Cline-Bench bude nedílným nástrojem v našich snahách maximalizovat výkon a pochopit schopnosti našich modelů." – @Teknium, vedoucí výcviku @nousresearch "Jsme velkými fanoušky všeho, co Cline dělá pro posílení open source AI ekosystému, a jsme nesmírně nadšeni, že můžeme podpořit vydání Cline-bench. Vysoce kvalitní otevřená prostředí pro agentické kódování jsou mimořádně vzácná. Toto vydání bude mít velký význam jak jako hodnocení schopností, tak jako testovací platforma po školení pro náročné reálné úkoly, čímž posune naše společné porozumění a schopnosti v oblasti autonomního vývoje softwaru." – @willccbb, vedoucí výzkumu @PrimeIntellect: "Sdílíme závazek Cline k open source a věříme, že zpřístupnění tohoto benchmarku všem nám pomůže pokračovat v posouvání hranic programátorských schopností našich LLM." – @b_roziere, vědecký @MistralAI: Podrobnosti najdete na blogu:

Top

Hodnocení

Oblíbené