PHAnToM: 大型语言模型中个性对心智理论推理的影响
本研究通过创建一个新的社交推理基准,即 BigToM,来评估大型语言模型的社交推理能力,发现 GPT4 具有反映人类推理模式的理论思维能力,但不够可靠,而其他 LLM 则表现较差。
Jun, 2023
本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性,并讨论了如何对这些模型进行塑造的潜在应用和伦理影响,特别是关于负责任地使用 LLM。
Jul, 2023
利用 Reddit 的 ChangeMyView 平台的帖子,该研究评估了大型语言模型在处理心理理论推理时的能力,并通过提供人类意图和情感来增强模型表现,揭示了模型在开放式问题中与人类心理推理相比存在的差距。
Jun, 2024
本研究探讨在理解人的常识推理问题中,如何通过上下文学习和人类反馈和增强学习的方法来提高 LLMs(大型语言模型)的表现,结果表明适当的提示可以增强 LLMs ToM(心理理论)推理能力,这也强调了 LLMs 认知能力的依赖于上下文。
Apr, 2023
该研究使用心理测量学的方法,对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现,使用普通人物描述时,GPT-4 的回答表现出与人类相似的心理特点,而使用具体人口统计信息的情况下,两个模型的回答则表现较差,此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。
May, 2024
借助不同输入提示,使用多个参数大小的多个大型语言模型对它们的输出进行了评估,结果显示,大型语言模型普遍表现出高度的开放性和低度的外向性,且参数越多越倾向于开放性和责任心,并且在不同数据集上对细调模型产生了微小的调整
Feb, 2024
通过仿真理论的视角引导框架 SimToM,在 Theory of Mind (ToM) 的背景下,改进了大型语言模型(LLMs)的推理能力,无需额外训练和大量提示微调,从而实现了对 ToM 能力的显著提升。
Nov, 2023
通过研究大型语言模型在人机交互中的应用,本文探讨了理解机器生成行为的能力,特别是在承认他人心理状态方面,发现大型语言模型缺乏对无关紧要或微小变化的不变性。
Jan, 2024
对 Llama2、GPT4 和 Mixtral 等大型语言模型对五大人格特质进行仿真的实证研究,分析了这些模型所模拟的人格特质及其稳定性,这有助于更深入地了解 LLMs 模拟人格特质的能力以及对个性化人机交互的影响。
Jan, 2024