语言模型在多样化角色扮演中展现稳定的价值取向

Aug, 2024

语言模型在多样化角色扮演中展现稳定的价值取向

Language Models Show Stable Value Orientations Across Diverse Role-Plays

Bruce W. Lee, Yeongheon Lee, Hyunsoo Cho

TL;DR本研究解决了大型语言模型在不同角色扮演下展现价值取向一致性的问题，提出了角色扮演大规模方法，系统地分析模型的反应。这一方法揭示了语言模型在多样角色中保持一致的反应模式，表明其内在倾向的深层编码。研究结果对基础模型的价值对齐讨论具有重要贡献，并展示了该方法在发现语言模型中编码偏见的有效性。

Abstract

We demonstrate that large Language Models (LLMs) exhibit consistent value orientations despite adopting diverse personas, revealing a persistent inertia in their responses that remains stable across the variety of roles they are prompted to assume. To systematically explore this phenom

发现论文，激发创造

大型语言模型的异构价值评估

本研究提出了A2EHV，一种自动化对齐评估方法，旨在提高大型语言模型的价值合理性，并在异构价值系统下进行评估，结合社会心理学中的社会价值取向框架，对大型语言模型的价值合理性进行评估，观察到大型模型更倾向于与中性价值对齐。

May, 2023

大规模语言模型是所有字符的叠加：通过自我对齐实现任意角色扮演

本研究通过利用大规模训练语料库中角色知识，提出了一种自对齐的角色扮演方法 Ditto，其将一个在读解问题上进行指令遵循的大型语言模型调整为模拟角色扮演对话。通过使用自动生成的角色扮演训练数据集对模型进行微调，Ditto展现出在多轮对话中一致的角色身份和准确的角色特定知识，性能高于其他开源角色扮演基准，并与先进的专有聊天机器人相媲美。与此同时，研究还展示了大型语言模型自身的内在能力限制了角色特定知识的获取，但通过辅助较小模型的指导可以轻松获得角色扮演风格。

Jan, 2024

互动中的LLM Agents：大型语言模型互动群体中个性一致性和语言对齐的测量

我们在GPT-3.5上通过提示方式进行个性化训练，创建了一组双组群体的LLM代理，然后进行个性测试并将代理提交到协作写作任务中，发现不同个性表现出不同程度的人格一致性和语言对话伙伴的语言协调性。我们的研究旨在为更好地理解LLMs之间基于对话的交互奠定基础，并强调了在交互环境中塑造稳健且更具人性的LLM个性的新方法的需求。

Feb, 2024

探索价值偏见：LLM模型向理想状态的偏离

一项研究发现，大型语言模型的非故意回应存在价值偏差，倾向于偏爱高价值选项，该偏差在不同领域的语言模型中都存在，并对相关应用场景选择起到影响。

Feb, 2024

坚守你的角色！大型语言模型表达的个人价值稳定性

本研究通过模拟对话的方式，从不同的背景情境中探索大型语言模型的稳定性，并测量其在价值表达方面的可靠性。该研究发现，在不同背景和对话长度的情况下，模型的稳定性受到指导角色模拟和对话长度的影响，并强调了未来研究中模拟多样性角色以及对上下文依赖性进行更彻底和高效研究的重要性。

Feb, 2024

探索大规模语言模型中的多语言人类价值观念：价值一致性、可传递性和可控性是否跨语言保持一致？

通过全面的研究，我们证实了多语言语言模型中存在多语言人类价值观念，进一步的跨语言分析揭示了语言资源差异引起的三个特征：跨语言不一致性、扭曲的语言关系以及高资源语言与低资源语言之间的单向跨语言传递，同时验证了通过使用主导语言作为源语言来控制多语言语言模型的价值观调整能力的可行性。我们的发现在多语言语言模型的预训练数据构成方面给出了明智的建议：在跨语言对齐传递时包含有限数量的主导语言，避免其过度流行，并保持非主导语言的平衡分布。我们希望我们的发现能够为增强多语言人工智能的安全性和实用性做出贡献。

Feb, 2024

超越人类规范：通过跨学科方法揭示大型语言模型的独特价值

基于心理学方法研究，该论文通过提出ValueLex框架，重建了大型语言模型（LLMs）的独特价值体系，并鉴定出了三个核心价值维度：能力、品格和诚信。同时，他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向，从而为未来的人工智能对齐和规范铺平了道路。

Apr, 2024

LLMs是否具有一致的价值观？

人类行为的基本驱动力是价值观。大型语言模型 (LLM) 技术不断向与人类对话类似的方向发展。然而，目前在研究 LLM 生成的文本中所展示的价值观方面的研究仍很少。本研究通过借鉴心理学中丰富的关于价值观结构的文献来探索这个问题。我们研究了LLM是否表现出与人类相同的价值观结构，包括价值观排序和价值观之间的相关性。我们展示出，对LLM进行提问的方式在结果上会产生较大差异，而在一种特定的提示策略下（称为“价值定锚”），与人类数据的一致性非常强烈。本研究结果不仅有助于提高我们对LLM中价值观的理解，还引入了新的评估LLM响应一致性的方法。

Jul, 2024

角色扮演推理中的偏见与毒性

本研究解决了角色扮演在大型语言模型中可能引发的偏见和有害输出的问题。通过系统评估角色扮演对模型在不同基准测试中的影响，研究发现尽管模型的推理能力有所提升，但角色扮演的应用往往增加了生成刻板印象和有害内容的可能性。这一发现对未来的语言模型设计和应用具有重要影响。

Sep, 2024

大语言模型角色扮演中的偏见基准测试

本研究针对大语言模型在角色扮演中可能存在的社会偏见进行了系统分析，填补了相关研究的空白。我们提出了BiasLens，一个旨在检测和揭示这些偏见的公平性测试框架，并通过生成33,000个问题对六个大型模型进行了评估，发现了72,716个偏见回应，显示了角色扮演情境下偏见的普遍存在，这为未来研究提供了重要的基准数据。

Nov, 2024