PersonaGym:评估人物代理和大型语言模型
该论文提出了一种新的检索到预测范例来解决个性化聊天机器人中OOP问题,并通过采用实际人物进行后验转换来进一步缓解训练和推理之间的差距。并通过IT-ConvAI2和ConvAI2的广泛实验表明,我们提出的模型在自动指标和人类评估方面都取得了可观的改进。
Aug, 2022
本论文提出了一种有效的对话代理,同时考虑外部知识和个性,通过检索增强生成和知识个性增强查询来生成话语,实现了更少幻觉和更有吸引力的对话,在自动指标上的基于个性和知识的对话任务达到了最先进的性能,同时,通过人类评估和定性结果证明了模型对话的幻觉和吸引力,验证了检索的有效性。
Jan, 2023
大语言模型为生成会话代理带来了重大进展,使得在各种话题上实现无缝、情境相关的对话成为可能。然而,现有的以语言模型为驱动的对话代理拥有固定的个性和功能,限制了它们适应个人用户需求的能力。通过创建具有特定专长或特点的个性化代理人物,可以解决这个问题。尽管如此,我们对人们如何定制和与代理人物互动缺乏了解。在这项研究中,我们调查了用户如何定制代理人物以及其对互动质量、多样性和动力的影响。为此,我们开发了CloChat,这是一个支持在大语言模型中轻松准确地定制代理人物的接口。我们进行了一项研究,比较了参与者如何与CloChat和ChatGPT互动。结果表明,参与者与定制代理人物建立了情感纽带,进行了更加动态的对话,并表现出对维持互动的兴趣。这些发现为未来使用大语言模型的对话代理系统的设计提供了启示。
Feb, 2024
大型语言模型在决策中是否可以替代人类是一个近期的研究课题。本研究中,我们通过使用高质量小说中的人物分析数据构建了LIFECHOICE数据集,并进行了多项实验,研究了LLMs在以人物为驱动的决策中的能力。结果表明,目前的LLMs在此任务中显示出有希望的能力,但仍有很大的改进空间。因此,我们进一步提出了基于人物记忆检索的CHARMAP方法,通过该方法可以获得6.01%的准确率提升。我们将公开提供我们的数据集和代码。
Apr, 2024
该研究提出了一种量化PRP忠实度的创新方法,通过从Active-Passive-Constraint(APC)得分入手,将所有约束合并成一种解释性评估标准。同时,在实验中验证了此评分系统的质量,并将其用于直接偏好优化(DPO)中,以获得更好的AI角色。结果发现,APC-DPO是一种精确均衡所有约束的竞争性技术,可以与其他技术结合使用。
May, 2024
通过引入CharacterGPT框架并利用文档语言模型,我们提出了一种解决助手API在维持人物一致性方面面临的挑战的新方法,通过从小说摘要中提取人物特征来更新人物形象,实现了稳定的人物一致性,并在角色扮演代理研究中创造了新的可能性。
May, 2024
总结:该论文是一份针对大型语言模型中角色扮演和个性化的综述调查,包括对角色扮演和个性化的研究分类、当前挑战和未来方向,并提供了供社区使用的论文资源。
Jun, 2024
通过提出自进化个性化对话代理(SPDO)范式,本论文探索在对话过程中持续发展以更好地符合用户预期的代理,提出了在层次化水平上优化角色的新框架,实验结果表明,使用我们的框架逐步调整适应用户的角色能够持续提高个性化和整体对话性能。
Jun, 2024
利用LLM系列模型将不同领域,如医疗保健、教育和金融等纳入其中,标志着人工智能领域的重大进步。个性化应用的增长需求促使设计有不同特质的对话代理(CAs)。本文从探讨赋予CAs独特特质的基本原理和影响展开,过渡到LLM时代CAs的个人化和拟人化的广泛讨论。我们深入研究了在LLM为基础的CAs中实施特质的特定应用,这不仅有益而且对于LLM-CAs来说是至关重要的。文章强调了对特质整合的细致处理的必要性,并突出了可能出现的潜在挑战和伦理困境。重点关注维护特质一致性的重要性,建立健全的评估机制,并确保特质属性与领域专业知识相辅相成。
May, 2024