LLM 模型模拟人类心理行为的有限能力:心理测量分析
本文通过用自我报告问卷(BFI)评估和语言分析等方法,在大型语言模型(LLMs)中针对五个人格特质类型和性别角色实验性地生成了 320 种 LLM 角色,研究 LLM 角色生成的内容是否优点定制的特质,并对其可应用于人工智能会话的前景进行了展望。
May, 2023
通过以人类为模版的角色对大型语言模型进行提示和回答问题,我们研究了这种模型在主观注释任务和信念生成任务中的表现,结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果,但在表现隐含的偏见方面通常未能达到预期。我们得出结论,大型语言模型缺乏人类思维的内在认知机制,虽然能够捕获人们言语的统计模式,但在复杂社会科学应用中可能限制其效果。
Jun, 2024
通过使用大五人格调查,我们在各种大型语言模型中发现了一种以前未被发现的社会期望偏差,它会影响模型的评估和得分。这种偏差存在于所有测试的模型中,并且可能在更近期的模型中出现更严重的程度,对于使用心理测验或将模型作为人类参与者的代理存在一定的限制。
May, 2024
本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性,并讨论了如何对这些模型进行塑造的潜在应用和伦理影响,特别是关于负责任地使用 LLM。
Jul, 2023
本论文提出了一个研究大语言模型的心理学的框架,并通过心理测试验证,发现大语言模型表现出广泛的心理属性,并揭示了自我报告特征与现实场景中行为之间的差异。这些研究结果对于可靠的评估和人工智能以及社会科学的潜在应用具有重要的见解。
Jun, 2024
大型语言模型(LLMs)的人类化行为在文本交互中愈发明显,尝试使用原本为人类设计的测试来评估模型的各种特性已变得流行起来。然而,需要仔细调整这些测试,以确保测试结果在人类亚群中的有效性。因此,不清楚不同测试的有效性能够推广到 LLMs 的程度。本研究提供证据表明,LLMs 对个性测试的反应与典型人类反应存在系统偏差,意味着这些结果不能像人类测试结果一样进行解释。具体来说,LLMs 经常同时肯定地回答出了反向编码项目(例如,“我是内向的” 与 “我是外向的”)。此外,设计用于 “引导” LLMs 模拟特定的个性类型的不同提示的变化并不遵循人类样本中五个独立个性因素的明确分离。考虑到这些结果,我们认为在对类似 LLMs “个性” 这样定义模糊的概念进行强有力的结论之前,应更加关注对 LLMs 的测试有效性。
Nov, 2023
对 Llama2、GPT4 和 Mixtral 等大型语言模型对五大人格特质进行仿真的实证研究,分析了这些模型所模拟的人格特质及其稳定性,这有助于更深入地了解 LLMs 模拟人格特质的能力以及对个性化人机交互的影响。
Jan, 2024
大型语言模型(LLMs)在社会科学研究中的自然语言理解任务的通用性使其备受青睐。本研究探讨了当前的提示格式是否能使 LLMs 以一致且稳健的方式提供回答,结论发现即使对选项顺序进行简单扰动也足以显著降低模型的问答能力,且大多数 LLMs 在否定一致性方面表现低下,提示目前的普遍做法无法准确捕捉模型的认知,我们讨论了改进这些问题的可能替代方案。
Nov, 2023
使用大型语言模型(LLMs)和个性变量在现有主观 NLP 数据集中模拟不同视角方面,发现个性变量通过提示在 LLMs 中的应用能提供适度的改善,但在解释人类标注中的作用较低(<10%)时,个性提示的效果很小,这对当前 NLP 领域中模拟多样性的可行性产生了质疑。
Feb, 2024
利用大型语言模型(LLMs)如 ChatGPT 从用户的数字足迹中推断个体的心理特征,研究发现 GPT-3.5 和 GPT-4 可以在零样本学习情景下从用户的 Facebook 状态更新中推导出五大人格特征,但结果显示推断得分与自我报告的特征分数之间的平均相关性为 r = .29(范围 =[.22, .33]),并且推断的人格特征存在性别和年龄方面的偏差。
Sep, 2023