Przedstawiamy Husky Hold’em Bench, pierwszą ewaluację pokerbotów OS! Ostatnio widzieliśmy wiele świetnych prac w OS dotyczących ewaluacji LLM w strategicznej grze. Oto kolejna z twistem: model nie ma możliwości bezpośredniego wyboru swoich działań, ale musi wdrożyć swoją politykę w pythonie pod ograniczeniami czasowymi i pamięciowymi, które wykluczają podejścia siłowe i tabele wyszukiwania. Następnie stawiamy boty przeciwko sobie w formacie round-robin dla 6 graczy z wszystkimi kombinacjami. Jak radzą sobie niektóre z wiodących modeli rozumowania?
59,26K