May, 2024
量化和优化基于人物的角色扮演中的全球忠实度
Quantifying and Optimizing Global Faithfulness in Persona-driven Role-playing
Letian Peng, Jingbo Shang
TL;DR该研究提出了一种量化 PRP 忠实度的创新方法,通过从 Active-Passive-Constraint(APC)得分入手,将所有约束合并成一种解释性评估标准。同时,在实验中验证了此评分系统的质量,并将其用于直接偏好优化(DPO)中,以获得更好的 AI 角色。结果发现,APC-DPO 是一种精确均衡所有约束的竞争性技术,可以与其他技术结合使用。