超越短时记忆:长期开放领域对话
通过使用基于 LLM 的代理体系结构和将对话与人物和时间事件图进行关联,我们介绍了一个机器 - 人类管道来生成高质量的非常长期的对话,并通过人类注释者对其进行检验和编辑,以确保其长程一致性和对事件图的关联。通过这个管道,我们收集了一个包含 300 个回合和平均 9K 个记号的非常长期对话的数据集。基于该数据集,我们提出了一个全面的评估基准来衡量模型中的长期记忆,在问题回答、事件摘要和多模态对话生成任务方面。我们的实验结果表明,LLM 在理解冗长对话和理解对话中的长程时间和因果动态方面存在挑战。使用长上下文 LLM 或 RAG 等策略可以提供改进,但这些模型仍然远远落后于人类的性能。
Feb, 2024
为了解决 Open Domain 对话模型在长时间对话中缺乏理解和记忆能力的问题,我们提出了一种新的任务 —— 长期记忆对话(LeMon),并构建了一个具备长期记忆机制的对话生成框架(PLATO-LTM ),允许系统在不需要多个会话数据集进行模型训练的情况下,准确提取和持续更新长期个人记忆。在 DuLeMon 的结果表明,PLATO-LTM 在长期对话一致性方面可以显著优于基线,从而导致更好的对话互动。
Mar, 2022
在自然语言处理领域,开放领域聊天机器人已成为一个重要的研究课题。然而,现有的开放领域聊天机器人研究的主要限制是其对短期单次对话的单一关注,忽视了在进行中的对话之前的多个连续会话中理解上下文信息的潜在需求。在多会话对话设置中,组成上下文的元素中,会话之间的时间间隔和发言者之间的关系尤为重要。尽管它们的重要性,当前的研究工作尚未充分解决这些对话组成部分。本文引入了一个新的 100 万多会话对话数据集,称为 Conversation Chronicles,用于实现一个长期对话设置,其中包含时间间隔和细粒度的发言者关系。我们利用一个大型语言模型生成数据,广泛的人工评估表明,Conversation Chronicles 中的对话片段反映了这些特性,同时在所有会话中保持一致和连贯的互动。我们还提出了一个对话模型,称为 ReBot,它由仅约 630M 个参数的按时间顺序总结和对话生成模块组成。当 ReBot 在 Conversation Chronicles 上进行训练时,表现出具有高人类参与度的长期上下文理解能力。
Oct, 2023
使用大型语言模型递归生成摘要 / 记忆,从而提高长期记忆能力,进而解决开放领域对话系统中遗忘重要信息的问题。实验证明,该方法可以在长对话环境中生成更加一致的回应。
Aug, 2023
本文提出了深度神经网络结合领域知识来加强人类对话模型的方法,通过特定设计的回想门模型,将领域知识转化为 LSTM 的额外全局记忆来协作捕捉对话句子之间的语义相关性。同时,我们还介绍了一种松散结构的领域知识库来辅助我们的方法,实验结果表明这种方法在选择定向回应任务上表现良好,非常适合用于训练自动聊天系统。
May, 2016
通过引入 BERTScore 提高证据质量,构建 retrieval-generation 训练框架,利用信息丰富但杂乱无章的对话数据,能使模型生成更好的响应,甚至比扩大培训集带来更好的性能提升。
Jan, 2022
近年来对长期记忆对话代理的兴趣越来越浓,这导致了使用检索增强生成(RAG)的语言模型的快速发展。本论文主张,在从长对话数据中进行有效的检索面临两个独特的问题:1)基于时间 / 事件的查询,要求模型根据时间或对话事件的顺序(例如,星期二的第三次对话)检索先前对话的信息;2)需要周围对话上下文才能理解的模糊查询。为了更好地开发能够应对这些挑战的 RAG 代理,我们生成了一个包含模糊查询和基于时间的问题的新数据集,该数据集是基于最新的长形模拟对话数据集的。我们证明了标准的 RAG 方法在处理这些问题时效果不佳。然后,我们开发了一种新的检索模型,结合了链式搜索方法、标准向量数据库检索和提示方法以消除查询的歧义,并证明了这种方法在解决这些任务上显著改善了现有方法的效果。我们相信,这个新数据集和更先进的 RAG 代理可以成为有效的记忆增强对话代理的关键基准和垫脚石,可用于各种人工智能应用。
May, 2024
本研究分析了神经网络开放领域对话系统所学习的内部表示,并评估了这些表示的质量以学习基本的交谈技巧。结果表明,标准的开放领域对话系统难以回答问题、推断矛盾并确定对话话题等任务,需要更多的研究来探讨建筑和训练方法,从而更好地捕捉有关对话的高级信息。
Jun, 2020
本研究通过分析大型语言模型(LLMs)在理解人际对话时的注意机制变化,对与网络内容、代码和数学文本的三种使用情况进行了分析。研究表明,对话数据具有长期上下文关系的细致处理和通过注意力模式的高复杂性等独特挑战。我们的研究结果显示,虽然语言模型表现出领域特定的注意行为,但在专攻人类对话方面仍存在显著差距。通过详细的注意熵分析和 t-SNE 可视化,我们展示了训练于多样且高质量对话数据的模型,以提升对人类对话的理解和生成。这项研究强调了语言模型领域专长的重要性,并提出了未来建模人类对话细微差别的途径。
Mar, 2024
本文对目前最先进的对话问答系统进行了首次的大规模人类评估,发现人类与机器之间的对话存在显著差异。此外,基于预测历史的问题重写机制能够更好地与人类判断相一致。通过研究各种建模策略,讨论了构建更好的对话问答系统的未来方向。
Dec, 2021