自评、展示和认可：大型自然语言模型中的人格评价综述

Jun, 2024

自评、展示和认可：大型自然语言模型中的人格评价综述

Self-assessment, Exhibition, and Recognition: a Review of Personality in Large Language Models

Zhiyuan Wen, Yu Yang, Jiannong Cao, Haoming Sun, Ruosong Yang...

TL;DR本文对大型语言模型中的个性进行了综述和分类，主要涵盖自我评估、展示和认知等问题，并提供了详尽的分析和解决方案比较，总结了研究结果和挑战，并展望了未来的研究方向和应用场景。

Abstract

As large language models (LLMs) appear to behave increasingly human-like in text-based interactions, more and more researchers become interested in investigating personality in LLMs. However, the diversity of psy

large language models personality research self-assessment exhibition

发现论文，激发创造

利用外部评估在大型语言模型中识别多个人格

通过使用外部评估方法，本文调查了大型语言模型（LLMs）的个性，并发现在不同情境下生成帖子和评论时，LLMs 的个性有显著差异，与人类表现出一致的个性特征形成了对比，从而引发对 LLMs 个性定义和测量的重新评估。

Feb, 2024

大型语言模型中的人格特质

本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性，并讨论了如何对这些模型进行塑造的潜在应用和伦理影响，特别是关于负责任地使用 LLM。

Jul, 2023

大型语言模型是否具有人格特质？：自我评估测试在衡量 LLMs 人格方面的适用性

该研究探讨了如何对大型语言模型进行人格测试，并提出了使用自我评估测试的不足之处，主要体现在测试结果不可靠，无法客观准确地测量机器的人格特点，原因是存在内在的偏见和不一致性。因此，需要开发更科学的方法来对大型语言模型的人格特点进行准确可靠的评估。

May, 2023

研究自评测验在大型语言模型的人格测量中的适用性

大规模语言模型的人格测量结果依赖于自我评估测试的选择，而人类使用的测试无法准确衡量 LLM 的人格特点。

Sep, 2023

大规模语言模型中引发大五人格特质的文本分析：基于分类器驱动方法

借助不同输入提示，使用多个参数大小的多个大型语言模型对它们的输出进行了评估，结果显示，大型语言模型普遍表现出高度的开放性和低度的外向性，且参数越多越倾向于开放性和责任心，并且在不同数据集上对细调模型产生了微小的调整

Feb, 2024

认知和行为是否一致：探讨大型语言模型的个性

通过对大型语言模型进行人格问卷调查，本研究评估了这些模型在表达人类人格特质方面的可靠性，并通过与人类基准的综合分析，探讨了大型语言模型中认知行为分歧的程度，并提出了基于心理学理论和测量方法的假设。

Feb, 2024

个性测试是否适用于大型语言模型？

大型语言模型（LLMs）的人类化行为在文本交互中愈发明显，尝试使用原本为人类设计的测试来评估模型的各种特性已变得流行起来。然而，需要仔细调整这些测试，以确保测试结果在人类亚群中的有效性。因此，不清楚不同测试的有效性能够推广到 LLMs 的程度。本研究提供证据表明，LLMs 对个性测试的反应与典型人类反应存在系统偏差，意味着这些结果不能像人类测试结果一样进行解释。具体来说，LLMs 经常同时肯定地回答出了反向编码项目（例如，“我是内向的” 与 “我是外向的”）。此外，设计用于 “引导” LLMs 模拟特定的个性类型的不同提示的变化并不遵循人类样本中五个独立个性因素的明确分离。考虑到这些结果，我们认为在对类似 LLMs “个性” 这样定义模糊的概念进行强有力的结论之前，应更加关注对 LLMs 的测试有效性。

Nov, 2023

量化 AI 心理学：大型语言模型的心理测量基准

本论文提出了一个研究大语言模型的心理学的框架，并通过心理测试验证，发现大语言模型表现出广泛的心理属性，并揭示了自我报告特征与现实场景中行为之间的差异。这些研究结果对于可靠的评估和人工智能以及社会科学的潜在应用具有重要的见解。

Jun, 2024

LLM 是否具有个性？将 MBTI 测试应用于大型语言模型的优秀评估

本文旨在探究利用人格评估工具 MBTI 对大型语言模型进行评估的可行性，并通过广泛实验探索不同模型的人格类型、通过提示工程改变人格类型的可能性以及训练数据集对模型人格的影响。尽管 MBTI 不是一个严谨的评估工具，但它仍然能够反映 LLMs 与人类人格之间的相似程度，并有潜力作为一个粗略的指标。

Jul, 2023

揭开黑箱：大型语言模型多方面性质的心理测量研究

该研究探索了 AI 性格或 AInality 的概念，表明大型语言模型（LLMs）呈现出与人类个性类似的模式。通过使用人类中心的心理测量测试，如迈尔斯 - 布里格斯类型指标（MBTI）、大五人格测试（BFI）和短暗黑三博士（SD3），我们确认了 LLM 的个性类型，并通过引入角色扮演提示，展示了 LLMs 的适应性，显示了它们在不同个性类型之间动态切换的能力。使用项目性测试，如华盛顿大学句子完成测试（WUSCT），我们揭示了 LLMs 个性的隐藏方面，这些方面通过直接提问很难获取。项目测试允许对 LLMs 的认知过程和思维模式进行深入探索，并为 AInality 提供了多方面的视角。我们的机器学习分析发现，LLMs 表现出明显的 AInality 特征和多样化的个性类型，展示了对外部指令的动态变化。该研究开创了在 LLMs 上应用项目性测试的先例，揭示了它们多样而适应性的 AInality 特征。

Dec, 2023