DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Saoud Rizwan

Les agents de codage ont du mal avec des travaux complexes dans de grands dépôts désordonnés, et cela ne s'améliorera pas tant que nous continuerons à utiliser des benchmarks saturés avec des tests qui n'ont rien à voir avec l'ingénierie réelle. C'est pourquoi nous nous engageons à investir 1 million de dollars dans cline-bench, notre benchmark ouvert pour des tâches de codage du monde réel !

Nous annonçons cline-bench, un benchmark open source du monde réel pour le codage agentique. cline-bench est construit à partir de tâches d'ingénierie du monde réel provenant de développeurs participants où les modèles de pointe ont échoué et où les humains ont dû intervenir. Chaque tâche acceptée devient un environnement RL entièrement reproductible avec un instantané de dépôt de départ, un vrai prompt et des tests de vérité de base à partir du code qui a finalement été expédié. Pour les laboratoires et les chercheurs, cela signifie : > vous pouvez évaluer des modèles sur un travail d'ingénierie authentique, pas sur des énigmes leetcode. > vous obtenez des environnements compatibles avec Harbor et des outils d'évaluation modernes pour une comparaison côte à côte. > vous pouvez utiliser les mêmes tâches pour SFT et RL afin que l'entraînement et l'évaluation restent ancrés dans de véritables flux de travail d'ingénierie. Aujourd'hui, nous ouvrons les contributions et commençons à collecter des tâches via le Cline Provider. La participation est optionnelle et limitée aux dépôts open source. Lorsqu'une tâche difficile bloque un modèle et que vous intervenez, cet échec peut être transformé en un environnement standardisé que toute la communauté peut étudier, évaluer et entraîner. Si vous travaillez sur des problèmes open source difficiles, en particulier des OSS commerciaux, je voudrais vous inviter personnellement à aider. Nous nous engageons à sponsoriser les mainteneurs open source avec 1 million de dollars pour participer à l'initiative cline-bench. "Cline-bench est un excellent exemple de la façon dont des benchmarks ouverts et du monde réel peuvent faire avancer tout l'écosystème. Des tâches de codage de haute qualité et vérifiées, ancrées dans de véritables flux de travail de développeurs, sont exactement ce dont nous avons besoin pour mesurer de manière significative les modèles de pointe, découvrir les modes d'échec et faire progresser l'état de l'art." – @shyamalanadkat, Responsable des évaluations appliquées @OpenAI "Nous Research se concentre sur la formation et la prolifération de modèles qui excellent dans des tâches du monde réel. cline-bench sera un outil intégral dans nos efforts pour maximiser la performance et comprendre les capacités de nos modèles." – @Teknium, Responsable de la post-formation @nousresearch "Nous sommes de grands fans de tout ce que Cline a fait pour renforcer l'écosystème open source de l'IA, et nous sommes incroyablement ravis de soutenir la sortie de cline-bench. Des environnements ouverts de haute qualité pour le codage agentique sont extrêmement rares. Cette sortie sera très utile à la fois comme évaluation des capacités et comme banc d'essai post-formation pour des tâches réelles difficiles, faisant progresser notre compréhension collective et nos capacités autour du développement de logiciels autonomes." – @willccbb, Responsable de la recherche @PrimeIntellect: "Nous partageons l'engagement de Cline envers l'open source et croyons que rendre ce benchmark disponible à tous nous aidera à continuer à faire progresser les capacités de codage de pointe de nos LLMs." – @b_roziere, Scientifique de recherche @MistralAI: Tous les détails sont dans le blog :

Meilleurs

Classement

Favoris