揭示大语言模型角色扮演中检测角色知识错误的挑战
RoleLLM是一种框架,用于在大规模语言模型中评估和增强角色扮演能力。通过Context-Instruct和RoleGPT,我们创建了RoleBench,这是角色扮演的第一个系统性和细致的基于角色的基准数据集,该数据集包含168,093个样本。此外,通过RoleBench上的RoCIT,我们获得了RoleLLaMA(英文)和RoleGLM(中文),显著增强了角色扮演的能力,甚至与使用GPT-4的RoleGPT的结果相当。
Oct, 2023
大型语言模型(LLMs)可以用作代理来模拟人类行为,具备理解人类指令和生成高质量文本的强大能力。本研究旨在训练一个代理,拥有特定人物的个人资料、经历和情感状态,而不是使用有限的提示来指导ChatGPT API。为了评估我们方法的有效性,我们建立了一个测试场,对训练的代理进行面试并评估其是否记忆了所扮演的角色和经历。实验结果呈现有趣的观察结果,有助于构建未来人类的模拟体。
Oct, 2023
通过应用大型语言模型(LLMs)在中国的谋杀迷题角色扮演游戏“Jubensha”中,我们提出了第一个专为Jubensha设计的中文数据集,旨在促进该复杂叙事环境下AI智能体的发展。本研究还介绍了一种基于LLMs的独特多智能体交互框架,使得这些AI智能体能够自主参与游戏,增强Jubensha游戏的动态性。为了评估这些AI智能体的表现,我们开发了专门针对他们对案件信息和推理能力的精研方法。此外,我们还融合了最新的上下文学习技术,以改善智能体在信息收集、凶手检测和逻辑推理等关键方面的表现。实验结果验证了我们提出方法的有效性。本研究旨在为研究者在该领域提供理解LLM能力的新视角,并建立一个评估基于大型语言模型的智能体的新基准。
Dec, 2023
该论文介绍了RoleEval,一个旨在评估角色知识的记忆、利用和推理能力的双语基准测试,包括RoleEval-Global和RoleEval-Chinese这两个部分,旨在系统地探索角色的个人信息、关系、能力和经历的基础知识和多跳推理能力。通过对多个大型语言模型在不同设置下对RoleEval的广泛评估,我们发现GPT-4在RoleEval-Global上表现出色,而中文语言模型在RoleEval-Chinese上则表现优异,凸显了知识分布差异的重要性。我们期望RoleEval能够凸显对各种语言和文化背景下基础模型的角色知识评估的重要性。
Dec, 2023
本研究通过利用大规模训练语料库中角色知识,提出了一种自对齐的角色扮演方法 Ditto,其将一个在读解问题上进行指令遵循的大型语言模型调整为模拟角色扮演对话。通过使用自动生成的角色扮演训练数据集对模型进行微调,Ditto展现出在多轮对话中一致的角色身份和准确的角色特定知识,性能高于其他开源角色扮演基准,并与先进的专有聊天机器人相媲美。与此同时,研究还展示了大型语言模型自身的内在能力限制了角色特定知识的获取,但通过辅助较小模型的指导可以轻松获得角色扮演风格。
Jan, 2024
通过评估大型语言模型在角色扮演后的决策能力,验证了角色扮演的有效性,提供了提升大型语言模型在角色扮演任务中决策能力的度量和指导。通过使用大型语言模型生成与MBTI人格类型相对应的虚拟角色描述,并设计具体的量化操作来评估大型语言模型在角色扮演后的决策能力,从适应性、探索与利用权衡能力、推理能力和安全性四个方面分析决策能力与相应MBTI类型的关联。实验结果表明,不同角色在决策能力的四个方面存在稳定的差异,显示出大型语言模型可以有效地扮演不同角色并体现其真实的社会学特征。
Feb, 2024
大型语言模型在决策中是否可以替代人类是一个近期的研究课题。本研究中,我们通过使用高质量小说中的人物分析数据构建了LIFECHOICE数据集,并进行了多项实验,研究了LLMs在以人物为驱动的决策中的能力。结果表明,目前的LLMs在此任务中显示出有希望的能力,但仍有很大的改进空间。因此,我们进一步提出了基于人物记忆检索的CHARMAP方法,通过该方法可以获得6.01%的准确率提升。我们将公开提供我们的数据集和代码。
Apr, 2024
我们提出使用角色概况任务来评估大型语言模型(LLMs)的角色理解能力,通过从对应的材料中总结角色概况,构建CroSS数据集并比较与下游任务的适用性,我们的实验结果强有力地验证了LLMs的角色理解能力,并且我们相信我们构建的资源将促进该领域的进一步研究。
Apr, 2024
本研究解决了角色扮演人格在大规模语言模型(LLM)中引发的推理能力下降的问题。提出了Jekyll Hyde框架,通过集成角色扮演与中性提示的结果来提升推理能力,并针对现有的LLM评估器的顺序偏差进行了优化。实验结果表明,该方法显著提升了LLM在多个推理数据集上的表现。
Aug, 2024