大型语言模型能从用户的自由互动中推断出个性

May, 2024

大型语言模型能从用户的自由互动中推断出个性

Large Language Models Can Infer Personality from Free-Form User Interactions

Heinrich Peters, Moran Cerf, Sandra C. Matz

TL;DR本研究探讨了大型语言模型（LLMs）从自由交互中推断五大人格特质的能力。结果表明，由 GPT-4 驱动的聊天机器人可以以适度的准确性推断人格，优于从静态文本内容中推断的先前方法。推断的准确性在不同的对话环境下有所变化。当聊天机器人被要求引出与个性相关的信息时，性能最高（平均 r=.443，范围 =[.245, .640]），其次是强调自然互动的条件（平均 r=.218，范围 =[.066, .373]）。值得注意的是，在直接关注个性评估的条件下，用户体验并未降低，参与者报告两种条件下的交互同样自然、愉快、吸引人和类似人类。一个模仿 ChatGPT 作为有益助手的聊天机器人导致较差的个性推断准确性和较低的用户体验评级，但仍然捕捉到一些人格特质的心理学意义信息（平均 r=.117，范围 =[-.004, .209]）。初步分析表明，个性推断的准确性在不同的社会人口子群中只有轻微的差别。我们的结果突出了 LLMs 在基于对话交互的心理剖析中的潜力。我们讨论了与这些发现相关的实际意义和伦理挑战。

Abstract

This study investigates the capacity of large language models (LLMs) to infer the Big Five personality traits from free-form user interactions. The results demonstrate that a →

large language models personality traits chatbot conversational interactions psychological profiling

发现论文，激发创造

大型语言模型能够推断社交媒体用户的心理特质

利用大型语言模型（LLMs）如 ChatGPT 从用户的数字足迹中推断个体的心理特征，研究发现 GPT-3.5 和 GPT-4 可以在零样本学习情景下从用户的 Facebook 状态更新中推导出五大人格特征，但结果显示推断得分与自我报告的特征分数之间的平均相关性为 r = .29（范围 =[.22, .33]），并且推断的人格特征存在性别和年龄方面的偏差。

Sep, 2023

PersonaLLM：探究 GPT-3.5 表达人格特质和性别差异的能力

本文通过用自我报告问卷（BFI）评估和语言分析等方法，在大型语言模型（LLMs）中针对五个人格特质类型和性别角色实验性地生成了 320 种 LLM 角色，研究 LLM 角色生成的内容是否优点定制的特质，并对其可应用于人工智能会话的前景进行了展望。

May, 2023

大型语言模型中的人格特质

本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性，并讨论了如何对这些模型进行塑造的潜在应用和伦理影响，特别是关于负责任地使用 LLM。

Jul, 2023

ChatGPT 是否可以识别您的身份？

通过对捷克民众自我评估数据的分析，本研究探讨了一个通用聊天机器人 ChatGPT 在从短文本中有效推测个性特质方面的能力，结果显示其在人格特质推测方面与人类评估者具有竞争力，并揭示了 ChatGPT 在所有人格维度上存在的 ' 积极偏差 '，同时探讨了提示内容对其准确度的影响，从而对人格评估中人工智能的潜力和局限性进行了重要贡献。本研究强调了负责任的人工智能发展的重要性，并考虑了隐私、同意、自主权和人工智能应用中的偏见等伦理问题。

Dec, 2023

ChatGPT 是否能评估人类个性？一个综合评估框架

本文提出一种 LL 全面评估人类人格的通用框架，使用 Myers Briggs 类型指标测试。采用无偏提示和替换问题语句的方法，使 ChatGPT 能更加灵活地评估不同类型的人格。通过实验，我们发现 ChatGPT 的评估结果更加一致和公正，尽管对提示偏差的鲁棒性略低于 InstructGPT。

Mar, 2023

大型语言模型的个性 —— 基于 ChatGPT (ENFJ) 和 Bard (ISTJ) 的实证研究

本研究使用心理学框架来考察 Large Language Models 的行为模式，通过评估 ChatGPT 的人格类型及其在其他七种语言和其他四种模型上的跨语言影响，研究指出在指令或情境提示下，ChatGPT 始终保持其 ENFJ 人格，揭示了 LLMs 的个性化特点，为未来进一步研究提供了启示。

May, 2023

大规模语言模型中引发大五人格特质的文本分析：基于分类器驱动方法

借助不同输入提示，使用多个参数大小的多个大型语言模型对它们的输出进行了评估，结果显示，大型语言模型普遍表现出高度的开放性和低度的外向性，且参数越多越倾向于开放性和责任心，并且在不同数据集上对细调模型产生了微小的调整

Feb, 2024

个性是否仅限于角色扮演？使用 ChatGPT 从简单描述中重构智能体的潜在个性

本文研究借助简单描述包含社会人口和个性类型信息，大型语言模型（LLMs）在重建人类认知中基本性格特征方面的能力。通过利用 HEXACO 人格框架，我们的研究探讨了 LLMs 在从简单描述中恢复和预测潜在人格维度的一致性。实验证明在人格重建方面存在显著的一致性，但也观察到一些不一致性和偏见，例如在缺乏明确信息时默认为积极特质。此外，年龄和子女数量等社会人口因素也会影响恢复的人格维度。这些发现对于利用 LLMs 构建复杂的基于代理的模拟具有重要意义，并强调了对 LLMs 中健壮人格生成的进一步研究的需求。

Jun, 2024

LLM 模型模拟人类心理行为的有限能力：心理测量分析

该研究使用心理测量学的方法，对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现，使用普通人物描述时，GPT-4 的回答表现出与人类相似的心理特点，而使用具体人口统计信息的情况下，两个模型的回答则表现较差，此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。

May, 2024

利用大型语言模型预测中国辅导对话中的五大人格特征

大型语言模型 (LLMs) 可以通过咨询对话预测个性特质。通过在咨询过程中运用角色扮演和基于问卷的提示，该研究提出了一种创新框架来实现这一目标。在实际咨询场景中，通过 853 个真实咨询对话的评估，发现 LLM 预测的个性特质与实际结果存在显著相关性，证明了该框架的有效性。同时，通过消融研究，强调了角色扮演模拟和通过问卷简化任务对提高预测准确性的重要性。此外，我们的经过精调的 Llama3-8B 模型在个性预测有效性方面实现了 130.95% 的改进，超过了 Qwen1.5-110B 的 36.94%。该研究提供了一个公开可用的代码和模型，为计算心理测量学的未来研究提供了有价值的工具。

Jun, 2024