Feb, 2024

通过积极查询提升角色扮演系统:评估与改进

TL;DR通过设计 MORTISE 来改进角色扮演 LLMs 的性能,我们构建了具有高度角色相关性的攻击性查询,通过多个基于 LLM 的模块协同努力生成相应的回复,并形成对抗性训练数据集 RoleAD。结果表明,现有模型在角色对齐能力上存在普遍不足,而经过 RoleAD 改进的模型在改善这一不足方面表现出了一定的泛化性。