Codierungsagenten haben Schwierigkeiten mit komplexen Arbeiten in großen, unordentlichen Repositories, und das wird sich nicht verbessern, bis wir aufhören, gesättigte Benchmarks mit Tests zu verwenden, die nichts mit echter Ingenieursarbeit zu tun haben. Deshalb verpflichten wir uns, 1 Million Dollar in cline-bench zu investieren, unser offenes Benchmark für reale Programmieraufgaben!