Herauszufinden, welches Element fehlt, stellte sich für alle LLMs als unmöglich heraus, während es für Menschen ziemlich trivial war.
Insgesamt fand ich das Denken von GPT-5 bei einigen sehr spezifischen Fragen, die ich zu Silksong hatte, am hilfreichsten. Ich habe im Vergleich zu meiner Nutzung von O3 beim Spielen von Blue Prince deutlich weniger Halluzinationen gesehen.
Claude und Gemini sind komplett gescheitert, Grok hat eine Weile nachgedacht und unsinnige Antworten gegeben (beide genannten Punkte sind auf dem Bild zu sehen).
Update: GPT-5 Pro hat das tatsächlich richtig gelöst. Ich bin beeindruckt. Das Denkmodell hat es jedes Mal falsch gemacht.
5,79K