我经常把在x上看到的愚蠢或有争议的内容发送给不同的llm,以观察它们的反应。出现了以下模式: claude 4几乎总是假设有恶意,并拒绝参与或解释,即使我可能真的不知道这篇帖子在说什么。 gpt-5通常会回应,但答案总是听起来非常居高临下和居心叵测。它常常拒绝与核心论点进行互动。 grok 4感觉最开放。它接受最疯狂的想法,并提出有趣的类比,而答案听起来并不像一场讲座。