大型语言模型是否具有变色龙特性？

May, 2024

大型语言模型是否具有变色龙特性？

Are Large Language Models Chameleons?

Mingmeng Geng, Sihong He, Roberto Trotta

TL;DR大型语言模型（LLMs）是否具有其自己的世界观和个性倾向？对 LLM 模型回答主观问题的模拟进行了 100 多万次，将其回答与欧洲社会调查（ESS）的真实数据进行比较，结果表明问题引导对偏见和变异的影响是基本的，突出了主要的文化、年龄和性别偏见。文中还讨论了测量 LLMs 与调查数据差异的方法，如计算加权平均值和基于 Jaccard 相似性的一项新提出的测量。我们得出结论，在使用 LLMs 模拟个体决策或集体行为之前，分析问题引导的稳健性和变异性非常重要，因为它们的模拟能力充其量是近似的。

Abstract

Do large language models (LLMs) have their own worldviews and personality tendencies? Simulations in which an LLM was asked to answer subjective questions were conducted more than 1 million times. Comparison of t

large language models worldviews personality tendencies bias variability

发现论文，激发创造

LLM 是否表现出类似于人类的回答偏向？一项调查设计案例研究

大型语言模型在代表人类进行主观标签任务方面的潜力和限制

Nov, 2023

明示和隐示的大型语言模型角色生成意见，但无法复制更深层次的认知和偏见

通过以人类为模版的角色对大型语言模型进行提示和回答问题，我们研究了这种模型在主观注释任务和信念生成任务中的表现，结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果，但在表现隐含的偏见方面通常未能达到预期。我们得出结论，大型语言模型缺乏人类思维的内在认知机制，虽然能够捕获人们言语的统计模式，但在复杂社会科学应用中可能限制其效果。

Jun, 2024

大型语言模型在调查反应中展现人类般的社交期望偏见

通过使用大五人格调查，我们在各种大型语言模型中发现了一种以前未被发现的社会期望偏差，它会影响模型的评估和得分。这种偏差存在于所有测试的模型中，并且可能在更近期的模型中出现更严重的程度，对于使用心理测验或将模型作为人类参与者的代理存在一定的限制。

May, 2024

个性测试是否适用于大型语言模型？

大型语言模型（LLMs）的人类化行为在文本交互中愈发明显，尝试使用原本为人类设计的测试来评估模型的各种特性已变得流行起来。然而，需要仔细调整这些测试，以确保测试结果在人类亚群中的有效性。因此，不清楚不同测试的有效性能够推广到 LLMs 的程度。本研究提供证据表明，LLMs 对个性测试的反应与典型人类反应存在系统偏差，意味着这些结果不能像人类测试结果一样进行解释。具体来说，LLMs 经常同时肯定地回答出了反向编码项目（例如，“我是内向的” 与 “我是外向的”）。此外，设计用于 “引导” LLMs 模拟特定的个性类型的不同提示的变化并不遵循人类样本中五个独立个性因素的明确分离。考虑到这些结果，我们认为在对类似 LLMs “个性” 这样定义模糊的概念进行强有力的结论之前，应更加关注对 LLMs 的测试有效性。

Nov, 2023

评估大型语言模型在心理测量工具上的可靠性

大型语言模型（LLMs）在社会科学研究中的自然语言理解任务的通用性使其备受青睐。本研究探讨了当前的提示格式是否能使 LLMs 以一致且稳健的方式提供回答，结论发现即使对选项顺序进行简单扰动也足以显著降低模型的问答能力，且大多数 LLMs 在否定一致性方面表现低下，提示目前的普遍做法无法准确捕捉模型的认知，我们讨论了改进这些问题的可能替代方案。

Nov, 2023

LLM 模型模拟人类心理行为的有限能力：心理测量分析

该研究使用心理测量学的方法，对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现，使用普通人物描述时，GPT-4 的回答表现出与人类相似的心理特点，而使用具体人口统计信息的情况下，两个模型的回答则表现较差，此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。

May, 2024

量化 LLM 模拟中的人物效应

使用大型语言模型（LLMs）和个性变量在现有主观 NLP 数据集中模拟不同视角方面，发现个性变量通过提示在 LLMs 中的应用能提供适度的改善，但在解释人类标注中的作用较低（<10%）时，个性提示的效果很小，这对当前 NLP 领域中模拟多样性的可行性产生了质疑。

Feb, 2024

大型语言模型是否表现出认知失调？研究揭示观点和陈述答案之间的差异

我们通过转化问题、多选题和直接文本补全的实验评估，研究了大型语言模型（LLMs）在因果推理、不确定性方面能力的量化，结果显示 LLMs 的表态答案与预测真实信念存在显著差异，提示它们的信念可能在多种情景和结果中存在多重偏见和不准确性，对于 LLMs 能力的评估方法仅提供了部分信息，需要进一步研究其能力的广度和本质。

Jun, 2024

大型语言模型受影响的易感性

两项研究证明了大型语言模型可以用于模拟受到影响后的心理变化，并且支持大型语言模型具有成为影响效应模型的潜力。第一项研究测试了虚假真相效应，发现大型语言模型模拟数据和人类数据的效应模式一致；第二项研究考察了民粹主义新闻框架，发现其中一些效应与人类实验数据一致，但也存在区别。

Mar, 2023

研究自评测验在大型语言模型的人格测量中的适用性

大规模语言模型的人格测量结果依赖于自我评估测试的选择，而人类使用的测试无法准确衡量 LLM 的人格特点。

Sep, 2023