Agentes de codificação têm dificuldades em trabalhos complexos em repositórios grandes e bagunçados, e isso não vai melhorar até pararmos de usar benchmarks saturados com testes que não se parecem em nada com engenharia real. Por isso estamos comprometendo US$ 1 milhão para o cline-bench, nosso benchmark aberto para tarefas de programação no mundo real!