Kodningsagenter har svårt med komplext arbete i stora röriga repos, och det blir inte bättre förrän vi slutar använda mättade benchmarks med tester som inte alls liknar riktig ingenjörskonst. Därför satsar vi 1 miljon dollar på cline-bench, vår öppna benchmark för verkliga kodningsuppgifter!