人格是把双刃剑：通过结合角色扮演和中性提示增强零-shot推理

Aug, 2024

人格是把双刃剑：通过结合角色扮演和中性提示增强零-shot推理

Persona is a Double-edged Sword: Enhancing the Zero-shot Reasoning by Ensembling the Role-playing and Neutral Prompts

Junseok Kim, Nakyeong Yang, Kyomin Jung

TL;DR本研究解决了角色扮演人格在大规模语言模型（LLM）中引发的推理能力下降的问题。提出了Jekyll Hyde框架，通过集成角色扮演与中性提示的结果来提升推理能力，并针对现有的LLM评估器的顺序偏差进行了优化。实验结果表明，该方法显著提升了LLM在多个推理数据集上的表现。

Abstract

Recent studies demonstrate that prompting an appropriate Role-playing persona to an LLM improves its reasoning capability. However, assigning a proper persona is difficult since an LLM's performance is extremely sensitive to assigned prompts; therefore, personas sometimes hinder LLMs a

发现论文，激发创造

角色扮演引导的零样本推理的改进

通过角色扮演提示方法，在各种推理基准测试中展示了大型语言模型 (LLMs) 的推理能力的提升。

Aug, 2023

RoleLLM：大型语言模型角色扮演能力的基准、激发和增强

RoleLLM是一种框架，用于在大规模语言模型中评估和增强角色扮演能力。通过Context-Instruct和RoleGPT，我们创建了RoleBench，这是角色扮演的第一个系统性和细致的基于角色的基准数据集，该数据集包含168,093个样本。此外，通过RoleBench上的RoCIT，我们获得了RoleLLaMA（英文）和RoleGLM（中文），显著增强了角色扮演的能力，甚至与使用GPT-4的RoleGPT的结果相当。

Oct, 2023

大规模语言模型是所有字符的叠加：通过自我对齐实现任意角色扮演

本研究通过利用大规模训练语料库中角色知识，提出了一种自对齐的角色扮演方法 Ditto，其将一个在读解问题上进行指令遵循的大型语言模型调整为模拟角色扮演对话。通过使用自动生成的角色扮演训练数据集对模型进行微调，Ditto展现出在多轮对话中一致的角色身份和准确的角色特定知识，性能高于其他开源角色扮演基准，并与先进的专有聊天机器人相媲美。与此同时，研究还展示了大型语言模型自身的内在能力限制了角色特定知识的获取，但通过辅助较小模型的指导可以轻松获得角色扮演风格。

Jan, 2024

关于使用大型语言模型进行角色扮演中的决策能力

通过评估大型语言模型在角色扮演后的决策能力，验证了角色扮演的有效性，提供了提升大型语言模型在角色扮演任务中决策能力的度量和指导。通过使用大型语言模型生成与MBTI人格类型相对应的虚拟角色描述，并设计具体的量化操作来评估大型语言模型在角色扮演后的决策能力，从适应性、探索与利用权衡能力、推理能力和安全性四个方面分析决策能力与相应MBTI类型的关联。实验结果表明，不同角色在决策能力的四个方面存在稳定的差异，显示出大型语言模型可以有效地扮演不同角色并体现其真实的社会学特征。

Feb, 2024

人物塑造命运：大型语言模型能否模拟以角色扮演为驱动的决策？

大型语言模型在决策中是否可以替代人类是一个近期的研究课题。本研究中，我们通过使用高质量小说中的人物分析数据构建了LIFECHOICE数据集，并进行了多项实验，研究了LLMs在以人物为驱动的决策中的能力。结果表明，目前的LLMs在此任务中显示出有希望的能力，但仍有很大的改进空间。因此，我们进一步提出了基于人物记忆检索的CHARMAP方法，通过该方法可以获得6.01％的准确率提升。我们将公开提供我们的数据集和代码。

Apr, 2024

量化和优化基于人物的角色扮演中的全球忠实度

该研究提出了一种量化PRP忠实度的创新方法，通过从Active-Passive-Constraint（APC）得分入手，将所有约束合并成一种解释性评估标准。同时，在实验中验证了此评分系统的质量，并将其用于直接偏好优化（DPO）中，以获得更好的AI角色。结果发现，APC-DPO是一种精确均衡所有约束的竞争性技术，可以与其他技术结合使用。

May, 2024

角色扮演的模版框架：生成与评估

使用大型语言模型（LLM）构建角色扮演对话数据集并评估性能的框架，并使用召回导向的Rouge-L指标支持LLM评估器的结果。

Jun, 2024

自我启动调整：使LLM自主扮演角色

近期LLMs的研究显示出其引人注目的角色扮演能力，能够根据不同的指令和环境准确模拟各种角色的对话风格和认知过程。本文通过自主调优的方式，使LLMs自动生成专家角色提示，从而自动化复杂的提示策略。使用LIMA数据集作为基础语料库，通过GPT-4为每个数据点注释角色提示，创建了LIMA-Role数据集，并在LIMA-Role上对LLMs进行微调，进一步证明了自主调优的LLMs在大多数数据集上优于标准指令调优的基准模型。

Jul, 2024

揭示大语言模型角色扮演中检测角色知识错误的挑战

本研究针对当前大语言模型在角色扮演中未能有效识别已知和未知知识错误的问题，提出了一种新的评估数据集。实验表明，即使是最新的大语言模型在识别这些知识错误时仍然表现不佳。通过引入自我回忆与自我怀疑的推理方法，研究展示了改善错误检测能力的潜力，但这一问题仍需持续关注。

Sep, 2024

角色扮演推理中的偏见与毒性

本研究解决了角色扮演在大型语言模型中可能引发的偏见和有害输出的问题。通过系统评估角色扮演对模型在不同基准测试中的影响，研究发现尽管模型的推理能力有所提升，但角色扮演的应用往往增加了生成刻板印象和有害内容的可能性。这一发现对未来的语言模型设计和应用具有重要影响。

Sep, 2024