Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Saoud Rizwan
Před pár dny urazil tweet od našeho vedoucího AI mnoho lidí. I když si nemyslím, že jeho původní tweet měl být urážlivý, jeho odmítnutí omluvy neodráží můj postoj ani postoj Clineové. Uvědomujeme si, že to způsobilo skutečnou bolest, a to si zaslouží uznání a empatii.
Už není s Clineem. I když jsem s jeho reakcí nesouhlasila, nikdo si nezaslouží výhrůžky a týrání, které zažil. Prosím, nechte ho i jeho rodinu v klidu.
Všem, koho to zranilo – omlouvám se.
4,79K
Cline v3.39 nyní dokáže generovat komentáře s různými pohledy, které vysvětlují změny, které dělá 🚀. Můžete také požádat o pomoc s kontrolou pull requestů, nedávných commitů a dalších! Psaní kódu je snadné – kontrola a schvalování je novým úzkým hrdlem a těšíme se, že tuto novou funkci vyzkoušíte.
12,03K
Programující agenti mají problémy s náročnou prací ve velkých neuspořádaných repozitářích a to se nezlepší, dokud přestaneme používat přesycené benchmarky s testy, které vůbec nevypadají jako skutečné inženýrství.
Proto investujeme 1 milion dolarů do cline-bench, našeho otevřeného měřítka pro reálné programátorské úkoly!

pash21. 11. 2025
Oznamujeme cline-bench, reálný open source benchmark pro agentické kódování.
Cline-Bench je postaven na skutečných inženýrských úkolech od zúčastněných vývojářů, kde modely Frontier selhaly a museli zasáhnout lidé.
Každý přijatý úkol se stává plně reprodukovatelným RL prostředím s úvodním snímkem repozitáře, skutečným promptem a testy pravdivosti z kódu, který byl nakonec odeslán.
Pro laboratoře a výzkumníky to znamená:
> můžete hodnotit modely podle skutečné inženýrské práce, ne podle leetcode hádanek.
> získáte prostředí kompatibilní s Harborem a moderními hodnotícími nástroji pro srovnání vedle sebe.
> stejné úkoly můžete použít i pro SFT a RL, takže školení a hodnocení zůstávají zakotveny v reálných inženýrských pracovních postupech.
Dnes otevíráme příspěvky a začínáme vybírat úkoly prostřednictvím poskytovatele Cline. Účast je dobrovolná a omezená na open source repozitáře.
Když těžký úkol zablokuje model a vy zasáhnete, lze tento neúspěch proměnit ve standardizované prostředí, které může celá komunita studovat, porovnávat a trénovat.
Pokud pracujete na obtížných open source problémech, zejména komerčních OSS, rád bych vás osobně pozval k pomoci. Věnujeme 1 milion dolarů sponzorování správců open source, aby se zapojili do iniciativy cline-bench.
"Cline-bench je skvělým příkladem toho, jak otevřené, reálné benchmarky mohou posunout celý ekosystém vpřed. Vysoce kvalitní, ověřené programátorské úkoly založené na skutečných pracovních postupech vývojářů jsou přesně to, co potřebujeme k smysluplnému měření modelů na hranicích, odhalení způsobů selhání a posunu na úroveň techniky."
– @shyamalanadkat, vedoucí aplikovaných evaluací @OpenAI
"Nous Research se zaměřuje na trénování a rozšiřování modelů, které vynikají v reálných úkolech. Cline-Bench bude nedílným nástrojem v našich snahách maximalizovat výkon a pochopit schopnosti našich modelů."
– @Teknium, vedoucí výcviku @nousresearch
"Jsme velkými fanoušky všeho, co Cline dělá pro posílení open source AI ekosystému, a jsme nesmírně nadšeni, že můžeme podpořit vydání Cline-bench. Vysoce kvalitní otevřená prostředí pro agentické kódování jsou mimořádně vzácná. Toto vydání bude mít velký význam jak jako hodnocení schopností, tak jako testovací platforma po školení pro náročné reálné úkoly, čímž posune naše společné porozumění a schopnosti v oblasti autonomního vývoje softwaru."
– @willccbb, vedoucí výzkumu @PrimeIntellect:
"Sdílíme závazek Cline k open source a věříme, že zpřístupnění tohoto benchmarku všem nám pomůže pokračovat v posouvání hranic programátorských schopností našich LLM."
– @b_roziere, vědecký @MistralAI:
Podrobnosti najdete na blogu:

4,8K
Top
Hodnocení
Oblíbené
