May, 2024

量化和优化基于人物的角色扮演中的全球忠实度

TL;DR该研究提出了一种量化 PRP 忠实度的创新方法,通过从 Active-Passive-Constraint(APC)得分入手,将所有约束合并成一种解释性评估标准。同时,在实验中验证了此评分系统的质量,并将其用于直接偏好优化(DPO)中,以获得更好的 AI 角色。结果发现,APC-DPO 是一种精确均衡所有约束的竞争性技术,可以与其他技术结合使用。