Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Présentation de Husky Hold’em Bench, le premier évaluation de pokerbots OS !
Nous avons récemment vu beaucoup de travaux intéressants en OS sur l'évaluation des LLMs dans le cadre de jeux stratégiques.
Voici un autre exemple avec une tournure : le modèle ne peut pas choisir ses actions directement, mais doit plutôt mettre en œuvre sa politique en python sous des contraintes de temps et de mémoire qui excluent les approches de force brute et les tables de consultation.
Nous mettons ensuite les bots les uns contre les autres dans un format de round-robin à 6 joueurs avec toutes les combinaisons. Comment certains des modèles de raisonnement les plus avancés se comportent-ils ?


59,26K
Meilleurs
Classement
Favoris