ustalenie, który przedmiot jest brakujący, okazało się niemożliwe dla wszystkich llm, podczas gdy dla ludzi było to dość trywialne.
ogólnie uważam, że myślenie gpt-5 było najbardziej pomocne w przypadku kilku bardzo konkretnych pytań, które miałem na temat silksong. Zauważyłem znacznie mniej halucynacji w porównaniu do tego, kiedy używałem o3 grając w blue prince.
claude i gemini całkowicie zawiedli, grok myślał przez chwilę i dał bezsensowne odpowiedzi (oba elementy, o których wspomina, można zobaczyć na zdjęciu).
aktualizacja: gpt-5 pro faktycznie rozwiązał to poprawnie. Jestem pod wrażeniem. Model myślenia mylił się za każdym razem.
5,8K