语言模型在多样化角色扮演中展现稳定的价值取向
通过引入Beyond the Imitation Game基准测试(BIG-bench),我们评估了多种大小的语言模型在204个跨不同领域的任务上的表现,发现规模越大,其表现和校准也越好,但与人类专家相比还是很差,同时也发现在歧义上下文中情境偏见随规模增加而增加,但通过提示可以改善。
Jun, 2022
本研究提出了A2EHV,一种自动化对齐评估方法,旨在提高大型语言模型的价值合理性,并在异构价值系统下进行评估,结合社会心理学中的社会价值取向框架,对大型语言模型的价值合理性进行评估,观察到大型模型更倾向于与中性价值对齐。
May, 2023
本文介绍了大语言模型(LLMs)是如何呈现出与不同价值观和个性特质相关的不同视角,认为LLMs是一系列具有不同价值观和人格特质的透视。在实验中,研究者使用心理学问卷(PVQ,VSM,IPIP)来研究模型表现的价值观和个性特质如何因不同视角而变化。通过定性和定量实验,研究者证明了LLMs在不同情境下表达不同的价值观和人格特质,并且探讨了多种相关的科学问题。
Jul, 2023
本研究通过利用大规模训练语料库中角色知识,提出了一种自对齐的角色扮演方法 Ditto,其将一个在读解问题上进行指令遵循的大型语言模型调整为模拟角色扮演对话。通过使用自动生成的角色扮演训练数据集对模型进行微调,Ditto展现出在多轮对话中一致的角色身份和准确的角色特定知识,性能高于其他开源角色扮演基准,并与先进的专有聊天机器人相媲美。与此同时,研究还展示了大型语言模型自身的内在能力限制了角色特定知识的获取,但通过辅助较小模型的指导可以轻松获得角色扮演风格。
Jan, 2024
我们在GPT-3.5上通过提示方式进行个性化训练,创建了一组双组群体的LLM代理,然后进行个性测试并将代理提交到协作写作任务中,发现不同个性表现出不同程度的人格一致性和语言对话伙伴的语言协调性。我们的研究旨在为更好地理解LLMs之间基于对话的交互奠定基础,并强调了在交互环境中塑造稳健且更具人性的LLM个性的新方法的需求。
Feb, 2024
本研究通过模拟对话的方式,从不同的背景情境中探索大型语言模型的稳定性,并测量其在价值表达方面的可靠性。该研究发现,在不同背景和对话长度的情况下,模型的稳定性受到指导角色模拟和对话长度的影响,并强调了未来研究中模拟多样性角色以及对上下文依赖性进行更彻底和高效研究的重要性。
Feb, 2024
通过全面的研究,我们证实了多语言语言模型中存在多语言人类价值观念,进一步的跨语言分析揭示了语言资源差异引起的三个特征:跨语言不一致性、扭曲的语言关系以及高资源语言与低资源语言之间的单向跨语言传递,同时验证了通过使用主导语言作为源语言来控制多语言语言模型的价值观调整能力的可行性。我们的发现在多语言语言模型的预训练数据构成方面给出了明智的建议:在跨语言对齐传递时包含有限数量的主导语言,避免其过度流行,并保持非主导语言的平衡分布。我们希望我们的发现能够为增强多语言人工智能的安全性和实用性做出贡献。
Feb, 2024
基于心理学方法研究,该论文通过提出ValueLex框架,重建了大型语言模型(LLMs)的独特价值体系,并鉴定出了三个核心价值维度:能力、品格和诚信。同时,他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向,从而为未来的人工智能对齐和规范铺平了道路。
Apr, 2024
人类行为的基本驱动力是价值观。大型语言模型 (LLM) 技术不断向与人类对话类似的方向发展。然而,目前在研究 LLM 生成的文本中所展示的价值观方面的研究仍很少。本研究通过借鉴心理学中丰富的关于价值观结构的文献来探索这个问题。我们研究了LLM是否表现出与人类相同的价值观结构,包括价值观排序和价值观之间的相关性。我们展示出,对LLM进行提问的方式在结果上会产生较大差异,而在一种特定的提示策略下(称为“价值定锚”),与人类数据的一致性非常强烈。本研究结果不仅有助于提高我们对LLM中价值观的理解,还引入了新的评估LLM响应一致性的方法。
Jul, 2024