Feb, 2024

评估 LLM 代理商的非常长期对话记忆

TL;DR通过使用基于 LLM 的代理体系结构和将对话与人物和时间事件图进行关联,我们介绍了一个机器 - 人类管道来生成高质量的非常长期的对话,并通过人类注释者对其进行检验和编辑,以确保其长程一致性和对事件图的关联。通过这个管道,我们收集了一个包含 300 个回合和平均 9K 个记号的非常长期对话的数据集。基于该数据集,我们提出了一个全面的评估基准来衡量模型中的长期记忆,在问题回答、事件摘要和多模态对话生成任务方面。我们的实验结果表明,LLM 在理解冗长对话和理解对话中的长程时间和因果动态方面存在挑战。使用长上下文 LLM 或 RAG 等策略可以提供改进,但这些模型仍然远远落后于人类的性能。