Oct, 2023

大型语言模型与具备心智理论的智能体相距多远?

TL;DR人类可以从观察中推断他人的心理状态,然后从实用角度出发对这些推断进行干预。针对大型语言模型(LLMs)的新的评估范式 ——Thinking for Doing(T4D)要求模型将对他人心理状态的推断与社交情境中的行动联系起来。我们提出了一种零样本提示框架 ——Foresee and Reflect(FaR),该框架能够鼓励 LLMs 预测未来的挑战并合理推断潜在行动,从而提高 GPT-4 在 T4D 上的性能。