uitzoeken welk item ontbreekt, bleek onmogelijk voor alle llms, terwijl het voor mensen vrij triviaal was.
over het algemeen vond ik dat gpt-5 het meest behulpzaam was bij enkele zeer specifieke vragen die ik had over silksong. Ik heb veel minder hallucinaties gezien in vergelijking met toen ik o3 gebruikte tijdens het spelen van blue prince.
claude en gemini zijn volledig gefaald, grok dacht een tijdje na en gaf onzinnige antwoorden (beide items die het noemt zijn te zien op de foto).
update: gpt-5 pro heeft dit eigenlijk correct opgelost. Ik ben onder de indruk. Het denkmodel kreeg het elke keer fout.
6,27K