ICMLJun, 2024

语言模型中心理状态表征的基准测试

TL;DR用各种语言模型和不同的模型大小、微调方法和提示设计进行广泛的基准测试,研究了心理状态表征的鲁棒性和记忆问题,并首次研究了提示变化对心智任务的探测性能的影响。结果表明,模型对他人信念的内部表征质量随模型大小和微调的增加而提高。此外,我们证明了模型的表征对提示的变化非常敏感,即使这些变化本应有益。最后,通过引导模型的激活,成功改善了模型的推理性能,无需训练任何探测器。