角色扮演推理中的偏见与毒性
RoleLLM是一种框架,用于在大规模语言模型中评估和增强角色扮演能力。通过Context-Instruct和RoleGPT,我们创建了RoleBench,这是角色扮演的第一个系统性和细致的基于角色的基准数据集,该数据集包含168,093个样本。此外,通过RoleBench上的RoCIT,我们获得了RoleLLaMA(英文)和RoleGLM(中文),显著增强了角色扮演的能力,甚至与使用GPT-4的RoleGPT的结果相当。
Oct, 2023
本研究通过利用大规模训练语料库中角色知识,提出了一种自对齐的角色扮演方法 Ditto,其将一个在读解问题上进行指令遵循的大型语言模型调整为模拟角色扮演对话。通过使用自动生成的角色扮演训练数据集对模型进行微调,Ditto展现出在多轮对话中一致的角色身份和准确的角色特定知识,性能高于其他开源角色扮演基准,并与先进的专有聊天机器人相媲美。与此同时,研究还展示了大型语言模型自身的内在能力限制了角色特定知识的获取,但通过辅助较小模型的指导可以轻松获得角色扮演风格。
Jan, 2024
通过设计MORTISE来改进角色扮演LLMs的性能,我们构建了具有高度角色相关性的攻击性查询,通过多个基于LLM的模块协同努力生成相应的回复,并形成对抗性训练数据集RoleAD。结果表明,现有模型在角色对齐能力上存在普遍不足,而经过RoleAD改进的模型在改善这一不足方面表现出了一定的泛化性。
Feb, 2024
通过评估大型语言模型在角色扮演后的决策能力,验证了角色扮演的有效性,提供了提升大型语言模型在角色扮演任务中决策能力的度量和指导。通过使用大型语言模型生成与MBTI人格类型相对应的虚拟角色描述,并设计具体的量化操作来评估大型语言模型在角色扮演后的决策能力,从适应性、探索与利用权衡能力、推理能力和安全性四个方面分析决策能力与相应MBTI类型的关联。实验结果表明,不同角色在决策能力的四个方面存在稳定的差异,显示出大型语言模型可以有效地扮演不同角色并体现其真实的社会学特征。
Feb, 2024
介绍了 RoleInteract,这是第一个旨在系统评估角色扮演对话代理在个体和社交互动组别两个级别上社交性的基准。从各种来源中构建了这个基准,共涵盖了500个角色和超过6,000个问题提示以及30,800个多轮角色扮演话语。通过在主流开源和闭源 LLMs 上进行全面评估,发现在个体水平上表现出色的代理并不意味着其在群体水平上的熟练程度,并且个体的行为可能会受到群体内其他代理的影响而发生漂移。RoleInteract 上的实验结果证实了它作为评估角色扮演对话代理社交互动的测试平台的重要性。该基准在此 https URL 上可公开访问。
Mar, 2024
近期LLMs的研究显示出其引人注目的角色扮演能力,能够根据不同的指令和环境准确模拟各种角色的对话风格和认知过程。本文通过自主调优的方式,使LLMs自动生成专家角色提示,从而自动化复杂的提示策略。使用LIMA数据集作为基础语料库,通过GPT-4为每个数据点注释角色提示,创建了LIMA-Role数据集,并在LIMA-Role上对LLMs进行微调,进一步证明了自主调优的LLMs在大多数数据集上优于标准指令调优的基准模型。
Jul, 2024
本研究解决了角色扮演人格在大规模语言模型(LLM)中引发的推理能力下降的问题。提出了Jekyll Hyde框架,通过集成角色扮演与中性提示的结果来提升推理能力,并针对现有的LLM评估器的顺序偏差进行了优化。实验结果表明,该方法显著提升了LLM在多个推理数据集上的表现。
Aug, 2024
本研究解决了大型语言模型在不同角色扮演下展现价值取向一致性的问题,提出了角色扮演大规模方法,系统地分析模型的反应。这一方法揭示了语言模型在多样角色中保持一致的反应模式,表明其内在倾向的深层编码。研究结果对基础模型的价值对齐讨论具有重要贡献,并展示了该方法在发现语言模型中编码偏见的有效性。
Aug, 2024