Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

pash
Současný šéf AI @cline | Předchozí @meta Znalostní graf | tvůrce trezoru // @usc kamenec
Pro mě i můj tým to bylo intenzivních 48 hodin.
Aby bylo jasno, nebudu se omlouvat za to, že jsem udělal neškodný vtip o tom, že hackathony zapáchají špatně. Letos jsem byl na čtyřech, všechny zapáchaly.
Očekávám omluvu od lidí jako @deedydas, se kterými jsem měl mnoho pozitivních setkání. Místo aby byli ke mně shovívaví a dali mi napodobeninu milosti, vrhli se na mě a usnadnili další nesmyslné násilné a skutečně odporné výhrůžky smrtí vůči mně, mé rodině a mému týmu.
To je absurdní a zdá se, že díky monetizaci X jsou lidé motivováni k tomu, aby na této platformě provokovali a zesilovali nesmyslné násilné hrozby.
@elonmusk nebyl celý smysl vašeho twitterového akvizice – NECHAT nás dělat si legraci a užívat si v klidu? Zdá se, že to nefunguje.
Děkuji všem rozumným lidem, kteří stáli při mně. Vážím si vás všech.
2,3M
Oznamujeme cline-bench, reálný open source benchmark pro agentické kódování.
Cline-Bench je postaven na skutečných inženýrských úkolech od zúčastněných vývojářů, kde modely Frontier selhaly a museli zasáhnout lidé.
Každý přijatý úkol se stává plně reprodukovatelným RL prostředím s úvodním snímkem repozitáře, skutečným promptem a testy pravdivosti z kódu, který byl nakonec odeslán.
Pro laboratoře a výzkumníky to znamená:
> můžete hodnotit modely podle skutečné inženýrské práce, ne podle leetcode hádanek.
> získáte prostředí kompatibilní s Harborem a moderními hodnotícími nástroji pro srovnání vedle sebe.
> stejné úkoly můžete použít i pro SFT a RL, takže školení a hodnocení zůstávají zakotveny v reálných inženýrských pracovních postupech.
Dnes otevíráme příspěvky a začínáme vybírat úkoly prostřednictvím poskytovatele Cline. Účast je dobrovolná a omezená na open source repozitáře.
Když těžký úkol zablokuje model a vy zasáhnete, lze tento neúspěch proměnit ve standardizované prostředí, které může celá komunita studovat, porovnávat a trénovat.
Pokud pracujete na obtížných open source problémech, zejména komerčních OSS, rád bych vás osobně pozval k pomoci. Věnujeme 1 milion dolarů sponzorování správců open source, aby se zapojili do iniciativy cline-bench.
"Cline-bench je skvělým příkladem toho, jak otevřené, reálné benchmarky mohou posunout celý ekosystém vpřed. Vysoce kvalitní, ověřené programátorské úkoly založené na skutečných pracovních postupech vývojářů jsou přesně to, co potřebujeme k smysluplnému měření modelů na hranicích, odhalení způsobů selhání a posunu na úroveň techniky."
– @shyamalanadkat, vedoucí aplikovaných evaluací @OpenAI
"Nous Research se zaměřuje na trénování a rozšiřování modelů, které vynikají v reálných úkolech. Cline-Bench bude nedílným nástrojem v našich snahách maximalizovat výkon a pochopit schopnosti našich modelů."
– @Teknium, vedoucí výcviku @nousresearch
"Jsme velkými fanoušky všeho, co Cline dělá pro posílení open source AI ekosystému, a jsme nesmírně nadšeni, že můžeme podpořit vydání Cline-bench. Vysoce kvalitní otevřená prostředí pro agentické kódování jsou mimořádně vzácná. Toto vydání bude mít velký význam jak jako hodnocení schopností, tak jako testovací platforma po školení pro náročné reálné úkoly, čímž posune naše společné porozumění a schopnosti v oblasti autonomního vývoje softwaru."
– @willccbb, vedoucí výzkumu @PrimeIntellect:
"Sdílíme závazek Cline k open source a věříme, že zpřístupnění tohoto benchmarku všem nám pomůže pokračovat v posouvání hranic programátorských schopností našich LLM."
– @b_roziere, vědecký @MistralAI:
Podrobnosti najdete na blogu:

99,85K
Top
Hodnocení
Oblíbené

