Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

pash
For tiden leder for AI @cline | forrige @meta kunnskapsgraf | Skaperen av hvelv // @usc alun
Det har vært 48 intense timer for meg og teamet mitt.
For å være tydelig, jeg kommer ikke til å be om unnskyldning for å ha kommet med en uskyldig vits om at hackathons lukter vondt. Jeg har vært på fire i år, de luktet alle vondt.
Jeg forventer en unnskyldning fra folk som @deedydas, som jeg har hatt mange positive møter med. I stedet for å være velvillige mot meg, og gi meg en simulakrum av nåde, overfalt de meg og tilrettela for flere meningsløse, voldelige og virkelig avskyelige dødstrusler mot meg, familien min og teamet mitt.
Dette er latterlig, og det ser ut til at med X som er monetisert, er folk insentivert til å bruke raserieagn og forsterke meningsløse voldelige trusler på denne plattformen.
@elonmusk var ikke hele poenget med Twitter-oppkjøpet ditt å LA oss spøke og ha det gøy i fred? Det ser ut til at det ikke fungerer.
Takk til alle de fornuftige menneskene som sto sammen med meg. Jeg setter pris på dere alle.
2,3M
Vi kunngjør cline-bench, en ekte åpen kildekode-benchmark for agentisk koding.
Cline-Bench er bygget opp av virkelige ingeniøroppgaver fra deltakende utviklere der Frontier-modeller feilet og mennesker måtte gripe inn.
Hver aksepterte oppgave blir et fullt reproduserbart RL-miljø med et start-repo-snapshot, en ekte prompt og sannhetstester fra koden som til slutt ble levert.
For laboratorier og forskere betyr dette:
> kan du vurdere modeller på ekte ingeniørarbeid, ikke leetcode-puslespill.
> får du miljøer kompatible med Harbor og moderne evalueringsverktøy for side-ved-side sammenligning.
> du kan bruke de samme oppgavene for SFT og RL slik at opplæring og evaluering forblir forankret i reelle ingeniørarbeidsflyter.
I dag åpner vi bidrag og begynner å samle oppgaver gjennom Cline Provider. Deltakelse er valgfri og begrenset til åpne kildekode-arkiver.
Når en vanskelig oppgave stopper en modell og du griper inn, kan den feilen gjøres om til et standardisert miljø som hele samfunnet kan studere, benchmarke og trene på.
Hvis du jobber med vanskelige åpen kildekode-problemer, spesielt kommersielt OSS, vil jeg personlig invitere deg til å hjelpe. Vi forplikter 1 million dollar til å sponse open source-vedlikeholdere som kan delta i cline-bench-initiativet.
"Cline-bench er et godt eksempel på hvordan åpne, virkelige referansepunkter kan drive hele økosystemet fremover. Høykvalitets, verifiserte kodeoppgaver basert på faktiske utviklerarbeidsflyter er akkurat det vi trenger for å måle frontmodeller meningsfullt, avdekke feilmoduser og utvikle det nyeste innen teknologi.»
– @shyamalanadkat, leder for anvendte vurderinger @OpenAI
"Nous Research fokuserer på å trene og spre modeller som utmerker seg i virkelige oppgaver. Cline-Bench vil være et integrert verktøy i våre anstrengelser for å maksimere ytelsen og forstå modellenes kapasiteter.»
– @Teknium, leder for Post Training @nousresearch
"Vi er store fans av alt Cline har gjort for å styrke det åpne AI-økosystemet, og er utrolig begeistret for å støtte Cline-bench-lanseringen. Høykvalitets åpne miljøer for agentisk koding er svært sjeldne. Denne utgivelsen vil bidra mye både som en evaluering av kapasiteter og som en testplattform etter opplæring for utfordrende virkelige oppgaver, og fremme vår kollektive forståelse og kapasiteter rundt autonom programvareutvikling.»
– @willccbb, forskningsleder @PrimeIntellect:
"Vi deler Clines forpliktelse til åpen kildekode og tror at det å gjøre denne referansen tilgjengelig for alle vil hjelpe oss å fortsette å presse de banebrytende kodingsmulighetene til våre LLM-er."
– @b_roziere, forsker @MistralAI:
Fullstendige detaljer finnes i bloggen:

99,85K
Topp
Rangering
Favoritter

