Oct, 2023

大型语言模型中的心智理论:考察 11 种当前最先进模型与 7-10 岁儿童在高难度测试上的表现

TL;DR我们通过测试 11 种基于基础模型和指令调整模型的能力来探讨大型语言模型(LLMs)在理解意图和信念(即心智理论)等认知能力方面的程度。我们发现,GPT 系列的调整模型表现优于其他模型和儿童。基础模型大多无法解决心智理论任务,即使有专门的提示。我们认为,语言和心智理论的互相关联可能解释了指令调整模型的增加:奖励考虑到对话者和语境的合作性交流。最后,我们呼吁在 LLMs 中对心智理论保持一个细致的观点。