建模人格的数据增强技术:Dexter机
研究表明,大规模语言模型虽然可以输出流畅的文本,但它们也捕捉到人类偏见。本文研究了面向开放式文本生成的几种大规模语言模型的人格特征和训练集,使用问卷设计了人格评估,并用零-shot分类器将文本回答分类到可量化的特征中,研究了可以改变这些人格特征的方法。
Apr, 2022
这篇论文提出了Machine Personality Inventory(MPI)数据集,该数据集以Big Five Personality Factors理论和人格评估清单为基础,旨在评估预先培训的语言模型的人格。通过MPI评估模型,我们提供了第一个证据,表明预先训练的语言模型中存在人格。我们进一步设计了Chain Prompting方法,以可控的方式诱导语言模型具有特定的人格,能够产生多样化的行为。希望通过采用人格作为下游任务的基本心理指导,建立更像人类且在位置对话代理商。
May, 2022
本文通过用自我报告问卷(BFI)评估和语言分析等方法,在大型语言模型(LLMs)中针对五个人格特质类型和性别角色实验性地生成了320种LLM角色,研究LLM角色生成的内容是否优点定制的特质,并对其可应用于人工智能会话的前景进行了展望。
May, 2023
通过对捷克民众自我评估数据的分析,本研究探讨了一个通用聊天机器人ChatGPT在从短文本中有效推测个性特质方面的能力,结果显示其在人格特质推测方面与人类评估者具有竞争力,并揭示了ChatGPT在所有人格维度上存在的'积极偏差',同时探讨了提示内容对其准确度的影响,从而对人格评估中人工智能的潜力和局限性进行了重要贡献。本研究强调了负责任的人工智能发展的重要性,并考虑了隐私、同意、自主权和人工智能应用中的偏见等伦理问题。
Dec, 2023
本研究探讨了大型语言模型(LLMs)从自由交互中推断五大人格特质的能力。结果表明,由GPT-4驱动的聊天机器人可以以适度的准确性推断人格,优于从静态文本内容中推断的先前方法。推断的准确性在不同的对话环境下有所变化。当聊天机器人被要求引出与个性相关的信息时,性能最高(平均r=.443,范围=[.245, .640]),其次是强调自然互动的条件(平均r=.218,范围=[.066, .373])。值得注意的是,在直接关注个性评估的条件下,用户体验并未降低,参与者报告两种条件下的交互同样自然、愉快、吸引人和类似人类。一个模仿ChatGPT作为有益助手的聊天机器人导致较差的个性推断准确性和较低的用户体验评级,但仍然捕捉到一些人格特质的心理学意义信息(平均r=.117,范围=[-.004, .209])。初步分析表明,个性推断的准确性在不同的社会人口子群中只有轻微的差别。我们的结果突出了LLMs在基于对话交互的心理剖析中的潜力。我们讨论了与这些发现相关的实际意义和伦理挑战。
May, 2024
本文研究借助简单描述包含社会人口和个性类型信息,大型语言模型(LLMs)在重建人类认知中基本性格特征方面的能力。通过利用HEXACO人格框架,我们的研究探讨了LLMs在从简单描述中恢复和预测潜在人格维度的一致性。实验证明在人格重建方面存在显著的一致性,但也观察到一些不一致性和偏见,例如在缺乏明确信息时默认为积极特质。此外,年龄和子女数量等社会人口因素也会影响恢复的人格维度。这些发现对于利用LLMs构建复杂的基于代理的模拟具有重要意义,并强调了对LLMs中健壮人格生成的进一步研究的需求。
Jun, 2024
本文提出基于专家混合(MoE)的个性化大型语言模型P-tailor来建模五大人格特征,并将其与个性特化损失相结合,以促进专家在不同人格特征上的专业化,从而提高模型参数利用效率。作者还构建了高质量的人格塑造数据集(PCD),在各个主题下学习和展示不同的人格特征。通过广泛的实验验证了P-tailor在对LLMs的细粒度人格特征操作方面的出色性能和有效性。
Jun, 2024
本研究解决了当前大型语言模型在体现个体用户独特特征和偏好方面的不足,提出了人格对齐的概念。通过构建包含30万名真实受试者的PAPI数据集,开发了一种激活干预优化方法(PAS),使得模型能够在仅用1/5优化时间的情况下,高效匹配个体的行为偏好,从而推动个性化人工智能的发展。
Aug, 2024