Les agents de codage ont du mal avec des travaux complexes dans de grands dépôts désordonnés, et cela ne s'améliorera pas tant que nous continuerons à utiliser des benchmarks saturés avec des tests qui n'ont rien à voir avec l'ingénierie réelle. C'est pourquoi nous nous engageons à investir 1 million de dollars dans cline-bench, notre benchmark ouvert pour des tâches de codage du monde réel !