Mar, 2024

角色互动评估:评估角色扮演代理人的社交互动

TL;DR介绍了 RoleInteract,这是第一个旨在系统评估角色扮演对话代理在个体和社交互动组别两个级别上社交性的基准。从各种来源中构建了这个基准,共涵盖了 500 个角色和超过 6,000 个问题提示以及 30,800 个多轮角色扮演话语。通过在主流开源和闭源 LLMs 上进行全面评估,发现在个体水平上表现出色的代理并不意味着其在群体水平上的熟练程度,并且个体的行为可能会受到群体内其他代理的影响而发生漂移。RoleInteract 上的实验结果证实了它作为评估角色扮演对话代理社交互动的测试平台的重要性。该基准在此 https URL 上可公开访问。