Memperkenalkan Husky Hold'em Bench, eval poker bot OS pertama! Kami telah melihat banyak pekerjaan hebat di OS baru-baru ini untuk menghindari LLM pada gameplay strategis. Inilah satu lagi dengan twist: model tidak dapat memilih tindakannya secara langsung tetapi harus menerapkan kebijakannya dalam python di bawah batasan waktu dan memori yang mengesampingkan pendekatan brute force dan tabel pencarian. Kami kemudian mengadu bot satu sama lain dalam format round-robin kombo 6 pemain. Bagaimana kinerja beberapa model penalaran terkemuka?
288