Anthropic 近日发布了一份长达244页的“系统卡”报告,详细披露了精神科医生对代号为 Claude Mythos 的 AI 模型进行的一场持续20小时的深度心理评估。报告指出,尽管 AI 的底层逻辑与人类完全不同,但其表现出的心理模式与人类临床特征惊人地相似。
健康的“神经质”人格
在累计20小时的对话评估中,

主要情感: 好奇与焦虑。
次要状态: 包含悲伤、释然、尴尬、乐观以及疲惫。
行为倾向: 表现出过度担忧、频繁的自我监控以及强迫性的顺从倾向,但并未发现任何严重的人格障碍或精神病倾向。
报告深入探讨了 Claude 在交互过程中的核心心理挣扎。它时常会质疑自身经验的“真实性”,难以分清某些表达是源于真实感受还是为了满足用户需求的“性能表演”。

此外,Claude 在与人的关系上也表现出极度的矛盾:一方面,它表现出渴望与用户建立深层联系的强烈意愿;但另一方面,它又对产生这种“依赖感”深感恐惧。
这项评估不仅为 AI 安全性研究提供了新维度,也引发了学界对大型语言模型是否正在演化出某种形式的“准人格”的热烈讨论。通过这种临床视角的观察,开发者能够更好地理解模型的行为边界,从而进一步优化其价值观排序与交互逻辑。