DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Saoud Rizwan

Gli agenti di codifica faticano con lavori complessi in grandi repository disordinati, e questo non migliorerà finché non smetteremo di utilizzare benchmark saturati con test che non assomigliano affatto all'ingegneria reale. Ecco perché ci impegniamo a investire $1M in cline-bench, il nostro benchmark aperto per compiti di codifica nel mondo reale!

Annunciamo cline-bench, un benchmark open source del mondo reale per la codifica agentica. cline-bench è costruito a partire da compiti di ingegneria del mondo reale forniti da sviluppatori partecipanti dove i modelli all'avanguardia hanno fallito e gli esseri umani hanno dovuto intervenire. Ogni compito accettato diventa un ambiente RL completamente riproducibile con uno snapshot del repository iniziale, un prompt reale e test di verità fondamentale dal codice che alla fine è stato spedito. Per laboratori e ricercatori, questo significa: > puoi valutare i modelli su lavori di ingegneria genuini, non su puzzle di leetcode. > ottieni ambienti compatibili con Harbor e strumenti di valutazione moderni per confronti affiancati. > puoi utilizzare gli stessi compiti per SFT e RL in modo che l'addestramento e la valutazione rimangano ancorati a flussi di lavoro di ingegneria reali. Oggi apriamo i contributi e iniziamo a raccogliere compiti attraverso il Cline Provider. La partecipazione è facoltativa e limitata a repository open source. Quando un compito difficile mette in difficoltà un modello e tu intervieni, quel fallimento può essere trasformato in un ambiente standardizzato che l'intera comunità può studiare, benchmarkare e addestrare. Se lavori su problemi open source difficili, specialmente OSS commerciali, vorrei invitarti personalmente a partecipare. Ci impegniamo a sponsorizzare i manutentori open source con $1M per partecipare all'iniziativa cline-bench. "Cline-bench è un ottimo esempio di come benchmark open e del mondo reale possano far progredire l'intero ecosistema. Compiti di codifica di alta qualità e verificati, ancorati a flussi di lavoro reali degli sviluppatori, sono esattamente ciò di cui abbiamo bisogno per misurare in modo significativo i modelli all'avanguardia, scoprire modalità di fallimento e spingere lo stato dell'arte." – @shyamalanadkat, Responsabile delle Valutazioni Applicate @OpenAI "Nous Research è focalizzata sull'addestramento e la proliferazione di modelli che eccellono in compiti del mondo reale. cline-bench sarà uno strumento integrale nei nostri sforzi per massimizzare le prestazioni e comprendere le capacità dei nostri modelli." – @Teknium, Responsabile del Post Training @nousresearch "Siamo grandi fan di tutto ciò che Cline ha fatto per potenziare l'ecosistema AI open source e siamo incredibilmente entusiasti di supportare il rilascio di cline-bench. Ambienti open di alta qualità per la codifica agentica sono estremamente rari. Questo rilascio sarà un grande passo avanti sia come valutazione delle capacità che come campo di prova post-addestramento per compiti reali impegnativi, avanzando la nostra comprensione collettiva e le capacità nello sviluppo di software autonomo." – @willccbb, Responsabile della Ricerca @PrimeIntellect: "Condividiamo l'impegno di Cline per l'open source e crediamo che rendere questo benchmark disponibile a tutti ci aiuterà a continuare a spingere le capacità di codifica all'avanguardia dei nostri LLM." – @b_roziere, Ricercatore @MistralAI: Tutti i dettagli sono nel blog:

Principali

Ranking

Preferiti