PHAnToM: 大型语言模型中个性对心智理论推理的影响

Mar, 2024

PHAnToM: 大型语言模型中个性对心智理论推理的影响

PHAnToM: Personality Has An Effect on Theory-of-Mind Reasoning in Large Language Models

Fiona Anting Tan, Gerard Christopher Yeo, Fanyou Wu, Weijie Xu, Vinija Jain...

TL;DR通过在大型语言模型中引入个性化的提示来诱导其特定的人格特质，研究发现这种引入显著影响了模型在心智理论推理任务中的推理能力。

Abstract

Recent advances in large language models (LLMs) demonstrate that their capabilities are comparable, or even superior, to humans in many tasks in natural language processing. Despite this progress, LLMs are still inadequate at →

large language models social-cognitive reasoning personality traits theory-of-mind reasoning prompt engineering

发现论文，激发创造

利用语言模型理解语言模型中的社交推理

本研究通过创建一个新的社交推理基准，即 BigToM，来评估大型语言模型的社交推理能力，发现 GPT4 具有反映人类推理模式的理论思维能力，但不够可靠，而其他 LLM 则表现较差。

Jun, 2023

大型语言模型中的人格特质

本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性，并讨论了如何对这些模型进行塑造的潜在应用和伦理影响，特别是关于负责任地使用 LLM。

Jul, 2023

LLM 是否具备类人推理能力？评估 LLM 对开放性回答的心智理论

利用 Reddit 的 ChangeMyView 平台的帖子，该研究评估了大型语言模型在处理心理理论推理时的能力，并通过提供人类意图和情感来增强模型表现，揭示了模型在开放式问题中与人类心理推理相比存在的差距。

Jun, 2024

通过提示提高大型语言模型的心理理论表现

本研究探讨在理解人的常识推理问题中，如何通过上下文学习和人类反馈和增强学习的方法来提高 LLMs（大型语言模型）的表现，结果表明适当的提示可以增强 LLMs ToM（心理理论）推理能力，这也强调了 LLMs 认知能力的依赖于上下文。

Apr, 2023

LLM 模型模拟人类心理行为的有限能力：心理测量分析

该研究使用心理测量学的方法，对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现，使用普通人物描述时，GPT-4 的回答表现出与人类相似的心理特点，而使用具体人口统计信息的情况下，两个模型的回答则表现较差，此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。

May, 2024

大规模语言模型中引发大五人格特质的文本分析：基于分类器驱动方法

借助不同输入提示，使用多个参数大小的多个大型语言模型对它们的输出进行了评估，结果显示，大型语言模型普遍表现出高度的开放性和低度的外向性，且参数越多越倾向于开放性和责任心，并且在不同数据集上对细调模型产生了微小的调整

Feb, 2024

偏见根深蒂固：个性化指定的 LLMs 中的隐性推理偏见

大规模语言模型（LLMs）个性化与基本推理任务间的影响及深层偏见的研究。

Nov, 2023

再三思考：透视改善大型语言模型的心理理论能力

通过仿真理论的视角引导框架 SimToM，在 Theory of Mind (ToM) 的背景下，改进了大型语言模型（LLMs）的推理能力，无需额外训练和大量提示微调，从而实现了对 ToM 能力的显著提升。

Nov, 2023

人机交互中大型语言模型对心理理论的能力：一种幻象？

通过研究大型语言模型在人机交互中的应用，本文探讨了理解机器生成行为的能力，特别是在承认他人心理状态方面，发现大型语言模型缺乏对无关紧要或微小变化的不变性。

Jan, 2024

LLMs 模拟五大人格特质：进一步证据

对 Llama2、GPT4 和 Mixtral 等大型语言模型对五大人格特质进行仿真的实证研究，分析了这些模型所模拟的人格特质及其稳定性，这有助于更深入地了解 LLMs 模拟人格特质的能力以及对个性化人机交互的影响。

Jan, 2024