Os agentes de codificação lutam com trabalhos complexos em repositórios grandes e desordenados, e isso não vai melhorar até pararmos de usar benchmarks saturados com testes que não se parecem em nada com a engenharia real. É por isso que estamos comprometidos a investir $1M no cline-bench, nosso benchmark aberto para tarefas de codificação do mundo real!