MPI:评估和诱导预训练语言模型的个性
研究表明,大规模语言模型虽然可以输出流畅的文本,但它们也捕捉到人类偏见。本文研究了面向开放式文本生成的几种大规模语言模型的人格特征和训练集,使用问卷设计了人格评估,并用零 - shot 分类器将文本回答分类到可量化的特征中,研究了可以改变这些人格特征的方法。
Apr, 2022
我们提出了一种将 Myers-Briggs Type Indicator (MBTI) 个性特征整合到大型语言模型 (LLMs) 中的新方法,解决了个性一致性在个性化人工智能中的挑战。我们的方法,称为 “Machine Mindset”,通过两阶段的微调和直接偏好优化 (DPO) 将 MBTI 特征嵌入 LLMs 中。这种方法确保模型内化这些特征,提供了稳定和一致的个性配置文件。我们通过在不同领域展示模型表现与其对应的 MBTI 特征之间的对齐,证明了我们模型的有效性。该论文在个性数据集的开发和个性整合在 LLMs 的新训练方法方面做出了重大贡献,增强了个性化人工智能应用的潜力。我们还在 https://github.com/PKU-YuanGroup/Machine-Mindset 上开源了我们的模型和部分数据。
Dec, 2023
本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性,并讨论了如何对这些模型进行塑造的潜在应用和伦理影响,特别是关于负责任地使用 LLM。
Jul, 2023
大型语言模型(LLMs)在社会科学研究中的自然语言理解任务的通用性使其备受青睐。本研究探讨了当前的提示格式是否能使 LLMs 以一致且稳健的方式提供回答,结论发现即使对选项顺序进行简单扰动也足以显著降低模型的问答能力,且大多数 LLMs 在否定一致性方面表现低下,提示目前的普遍做法无法准确捕捉模型的认知,我们讨论了改进这些问题的可能替代方案。
Nov, 2023
本文研究了语言模型,尤其是 GPT2 和 BERT,如何通过语言生成来表现其所体现的人格特质,以及这些特质是否可以被控制。作者通过提供不同类型的语境可以精准地控制这些模型的表现,最终得出这些模型可以作为识别个性特质和控制人格的强有力的工具。本研究还提供了一份基于” 大五人格模型 “的人品数据集和 Reddit 上的人格数据集。
Dec, 2022
该研究探索了 AI 性格或 AInality 的概念,表明大型语言模型(LLMs)呈现出与人类个性类似的模式。通过使用人类中心的心理测量测试,如迈尔斯 - 布里格斯类型指标(MBTI)、大五人格测试(BFI)和短暗黑三博士(SD3),我们确认了 LLM 的个性类型,并通过引入角色扮演提示,展示了 LLMs 的适应性,显示了它们在不同个性类型之间动态切换的能力。使用项目性测试,如华盛顿大学句子完成测试(WUSCT),我们揭示了 LLMs 个性的隐藏方面,这些方面通过直接提问很难获取。项目测试允许对 LLMs 的认知过程和思维模式进行深入探索,并为 AInality 提供了多方面的视角。我们的机器学习分析发现,LLMs 表现出明显的 AInality 特征和多样化的个性类型,展示了对外部指令的动态变化。该研究开创了在 LLMs 上应用项目性测试的先例,揭示了它们多样而适应性的 AInality 特征。
Dec, 2023
大型语言模型 (Large language models, LLMs) 的个性控制是一个关键研究领域,本研究通过综合调查发现,使用 PISF 策略对 LLMs 进行个性控制是最有效和最稳健的方法,具有高效性、高成功率和高鲁棒性。即使在相反个性提示下,由 PISF 控制的 LLMs 仍然表现出稳定且可靠的个性。
Jun, 2024
本文旨在探究利用人格评估工具 MBTI 对大型语言模型进行评估的可行性,并通过广泛实验探索不同模型的人格类型、通过提示工程改变人格类型的可能性以及训练数据集对模型人格的影响。尽管 MBTI 不是一个严谨的评估工具,但它仍然能够反映 LLMs 与人类人格之间的相似程度,并有潜力作为一个粗略的指标。
Jul, 2023
本研究论文探讨了在组织环境中将大型语言模型(LLMs)与人类用户对齐的不断发展的情况,超出了基本对齐的范畴,提出了为语言模型提供 “人格对齐” 的想法。通过原始案例研究,我们展示了为人工智能进行人格微调的必要性,并提出了将人类设计的测试应用于人工智能、工程专门的人工智能人格测试以及塑造适应组织角色的人工智能人格等引人思考的问题。该论文为 AI 人格对齐这一新兴领域的讨论和发展提供了起点,为未来在人与机器协同共存和合作的探索奠定了基础。
Dec, 2023