大型语言模型的人格对齐

Aug, 2024

Personality Alignment of Large Language Models

Minjun Zhu, Linyi Yang, Yue Zhang

TL;DR本研究解决了当前大型语言模型在体现个体用户独特特征和偏好方面的不足，提出了人格对齐的概念。通过构建包含30万名真实受试者的PAPI数据集，开发了一种激活干预优化方法（PAS），使得模型能够在仅用1/5优化时间的情况下，高效匹配个体的行为偏好，从而推动个性化人工智能的发展。

Abstract

Current methods for aligning Large Language Models (LLMs) typically aim to reflect general human values and behaviors, but they often fail to capture the unique characteristics and preferences of individual users. To address this gap, we introduce the concept of →

发现论文，激发创造

MPI：评估和诱导预训练语言模型的个性

这篇论文提出了Machine Personality Inventory（MPI）数据集，该数据集以Big Five Personality Factors理论和人格评估清单为基础，旨在评估预先培训的语言模型的人格。通过MPI评估模型，我们提供了第一个证据，表明预先训练的语言模型中存在人格。我们进一步设计了Chain Prompting方法，以可控的方式诱导语言模型具有特定的人格，能够产生多样化的行为。希望通过采用人格作为下游任务的基本心理指导，建立更像人类且在位置对话代理商。

May, 2022

PersonaLLM：探究GPT-3.5表达人格特质和性别差异的能力

本文通过用自我报告问卷（BFI）评估和语言分析等方法，在大型语言模型（LLMs）中针对五个人格特质类型和性别角色实验性地生成了320种LLM角色，研究LLM角色生成的内容是否优点定制的特质，并对其可应用于人工智能会话的前景进行了展望。

May, 2023

大型语言模型中的人格特质

本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性，并讨论了如何对这些模型进行塑造的潜在应用和伦理影响，特别是关于负责任地使用LLM。

Jul, 2023

从指令到内在人类价值观——大型模型目标同步调查

通过综合调查现有工作的不同对齐目标并追踪其演变路径，本文揭示了从基本能力到价值取向的目标转变，表明内在人类价值可能是提升大型语言模型对齐目标的关键，进一步讨论了实现此内在价值对齐的挑战，并提供了一系列可用资源以支持未来对大型模型对齐的研究。

Aug, 2023

AI人格

本研究论文探讨了在组织环境中将大型语言模型（LLMs）与人类用户对齐的不断发展的情况，超出了基本对齐的范畴，提出了为语言模型提供“人格对齐”的想法。通过原始案例研究，我们展示了为人工智能进行人格微调的必要性，并提出了将人类设计的测试应用于人工智能、工程专门的人工智能人格测试以及塑造适应组织角色的人工智能人格等引人思考的问题。该论文为AI人格对齐这一新兴领域的讨论和发展提供了起点，为未来在人与机器协同共存和合作的探索奠定了基础。

Dec, 2023

互动中的LLM Agents：大型语言模型互动群体中个性一致性和语言对齐的测量

我们在GPT-3.5上通过提示方式进行个性化训练，创建了一组双组群体的LLM代理，然后进行个性测试并将代理提交到协作写作任务中，发现不同个性表现出不同程度的人格一致性和语言对话伙伴的语言协调性。我们的研究旨在为更好地理解LLMs之间基于对话的交互奠定基础，并强调了在交互环境中塑造稳健且更具人性的LLM个性的新方法的需求。

Feb, 2024

大规模语言模型中引发大五人格特质的文本分析：基于分类器驱动方法

借助不同输入提示，使用多个参数大小的多个大型语言模型对它们的输出进行了评估，结果显示，大型语言模型普遍表现出高度的开放性和低度的外向性，且参数越多越倾向于开放性和责任心，并且在不同数据集上对细调模型产生了微小的调整

Feb, 2024

大型语言模型能从用户的自由互动中推断出个性

本研究探讨了大型语言模型（LLMs）从自由交互中推断五大人格特质的能力。结果表明，由GPT-4驱动的聊天机器人可以以适度的准确性推断人格，优于从静态文本内容中推断的先前方法。推断的准确性在不同的对话环境下有所变化。当聊天机器人被要求引出与个性相关的信息时，性能最高（平均r=.443，范围=[.245, .640]），其次是强调自然互动的条件（平均r=.218，范围=[.066, .373]）。值得注意的是，在直接关注个性评估的条件下，用户体验并未降低，参与者报告两种条件下的交互同样自然、愉快、吸引人和类似人类。一个模仿ChatGPT作为有益助手的聊天机器人导致较差的个性推断准确性和较低的用户体验评级，但仍然捕捉到一些人格特质的心理学意义信息（平均r=.117，范围=[-.004, .209]）。初步分析表明，个性推断的准确性在不同的社会人口子群中只有轻微的差别。我们的结果突出了LLMs在基于对话交互的心理剖析中的潜力。我们讨论了与这些发现相关的实际意义和伦理挑战。

May, 2024

通过系统消息概括与数千个偏好进行对齐

用户指定系统信息并通过训练大型语言模型与用户意图更好地对齐的新方法，通过多方面的数据集和用户指令训练模型，该模型在各项测试中表现优于其他大型语言模型。

May, 2024

P-Tailor: 通过专业 LoRA 专家的混合来定制语言模型的个性特质

本文提出基于专家混合（MoE）的个性化大型语言模型P-tailor来建模五大人格特征，并将其与个性特化损失相结合，以促进专家在不同人格特征上的专业化，从而提高模型参数利用效率。作者还构建了高质量的人格塑造数据集（PCD），在各个主题下学习和展示不同的人格特征。通过广泛的实验验证了P-tailor在对LLMs的细粒度人格特征操作方面的出色性能和有效性。

Jun, 2024