LLM模型模拟人类心理行为的有限能力：心理测量分析

May, 2024

LLM模型模拟人类心理行为的有限能力：心理测量分析

Limited Ability of LLMs to Simulate Human Psychological Behaviours: a Psychometric Analysis

Nikolay B Petrov, Gregory Serapio-García, Jason Rentfrow

TL;DR该研究使用心理测量学的方法，对OpenAI的GPT-3.5和GPT-4模型进行了人格特质测试。结果发现，使用普通人物描述时，GPT-4的回答表现出与人类相似的心理特点，而使用具体人口统计信息的情况下，两个模型的回答则表现较差，此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。

Abstract

The humanlike responses of large language models (LLMs) have prompted social scientists to investigate whether LLMs can be used to simulate human participants in experiments, opinion polls and surveys. Of central interest in this line of research has been mapping out the →

发现论文，激发创造

PersonaLLM：探究GPT-3.5表达人格特质和性别差异的能力

本文通过用自我报告问卷（BFI）评估和语言分析等方法，在大型语言模型（LLMs）中针对五个人格特质类型和性别角色实验性地生成了320种LLM角色，研究LLM角色生成的内容是否优点定制的特质，并对其可应用于人工智能会话的前景进行了展望。

May, 2023

大型语言模型是否具有人格特质？：自我评估测试在衡量LLMs人格方面的适用性

该研究探讨了如何对大型语言模型进行人格测试，并提出了使用自我评估测试的不足之处，主要体现在测试结果不可靠，无法客观准确地测量机器的人格特点，原因是存在内在的偏见和不一致性。因此，需要开发更科学的方法来对大型语言模型的人格特点进行准确可靠的评估。

May, 2023

大型语言模型中的人格特质

本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性，并讨论了如何对这些模型进行塑造的潜在应用和伦理影响，特别是关于负责任地使用LLM。

Jul, 2023

研究自评测验在大型语言模型的人格测量中的适用性

大规模语言模型的人格测量结果依赖于自我评估测试的选择，而人类使用的测试无法准确衡量LLM的人格特点。

Sep, 2023

个性测试是否适用于大型语言模型？

大型语言模型（LLMs）的人类化行为在文本交互中愈发明显，尝试使用原本为人类设计的测试来评估模型的各种特性已变得流行起来。然而，需要仔细调整这些测试，以确保测试结果在人类亚群中的有效性。因此，不清楚不同测试的有效性能够推广到LLMs的程度。本研究提供证据表明，LLMs对个性测试的反应与典型人类反应存在系统偏差，意味着这些结果不能像人类测试结果一样进行解释。具体来说，LLMs经常同时肯定地回答出了反向编码项目（例如，“我是内向的”与“我是外向的”）。此外，设计用于“引导”LLMs模拟特定的个性类型的不同提示的变化并不遵循人类样本中五个独立个性因素的明确分离。考虑到这些结果，我们认为在对类似LLMs“个性”这样定义模糊的概念进行强有力的结论之前，应更加关注对LLMs的测试有效性。

Nov, 2023

大规模语言模型中引发大五人格特质的文本分析：基于分类器驱动方法

借助不同输入提示，使用多个参数大小的多个大型语言模型对它们的输出进行了评估，结果显示，大型语言模型普遍表现出高度的开放性和低度的外向性，且参数越多越倾向于开放性和责任心，并且在不同数据集上对细调模型产生了微小的调整

Feb, 2024

利用外部评估在大型语言模型中识别多个人格

通过使用外部评估方法，本文调查了大型语言模型（LLMs）的个性，并发现在不同情境下生成帖子和评论时，LLMs的个性有显著差异，与人类表现出一致的个性特征形成了对比，从而引发对LLMs个性定义和测量的重新评估。

Feb, 2024

大型语言模型在调查反应中展现人类般的社交期望偏见

通过使用大五人格调查，我们在各种大型语言模型中发现了一种以前未被发现的社会期望偏差，它会影响模型的评估和得分。这种偏差存在于所有测试的模型中，并且可能在更近期的模型中出现更严重的程度，对于使用心理测验或将模型作为人类参与者的代理存在一定的限制。

May, 2024

明示和隐示的大型语言模型角色生成意见，但无法复制更深层次的认知和偏见

通过以人类为模版的角色对大型语言模型进行提示和回答问题，我们研究了这种模型在主观注释任务和信念生成任务中的表现，结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果，但在表现隐含的偏见方面通常未能达到预期。我们得出结论，大型语言模型缺乏人类思维的内在认知机制，虽然能够捕获人们言语的统计模式，但在复杂社会科学应用中可能限制其效果。

Jun, 2024

量化AI心理学：大型语言模型的心理测量基准

本论文提出了一个研究大语言模型的心理学的框架，并通过心理测试验证，发现大语言模型表现出广泛的心理属性，并揭示了自我报告特征与现实场景中行为之间的差异。这些研究结果对于可靠的评估和人工智能以及社会科学的潜在应用具有重要的见解。

Jun, 2024