增强语言模型的长期记忆
提出了 UniMem 框架,将现有的长上下文处理方法从记忆增强的角度进行统一;通过分析 Transformer-XL、Memorizing Transformer、RMT 和 Longformer 等方法,揭示它们的设计原理和优势;基于这些分析,提出了整合这些算法优势的创新方法 UniMix,并通过实验证明了 UniMix 在处理长上下文方面具有比基准模型更低的困惑度。
Feb, 2024
MEMORYLLM 是一个自我更新且具有信息记忆能力的模型,它通过在 transformer 的潜在空间中引入固定大小的内存池,能够有效地整合新知识并保持长期信息记录能力,同时维持操作性完整性。
Feb, 2024
通过引入关联记忆模块,在不需要重新训练的情况下,使得任何预训练(固定)基于注意力的大型语言模型能够处理任意长的输入序列,从而在长文本建模中实现了显著的困惑度降低。
Feb, 2024
提出了 MemoryBank,这是一种采用 Ebbinghaus 遗忘曲线中的记忆更新机制的新型记忆机制,旨在解决长期交互中 LLM 的记忆缺陷问题,并通过与心理对话调整提高其同理心。通过实验研究,证明了 MemoryBank 能够成功提高聊天机器人在长期 AI Companion 中的表现能力。
May, 2023
本文介绍了长期记忆网络 (LTM) 以解决自然语言理解模型在处理长的序列文本时出现的问题。通过在语言建模任务上进行测试,我们发现 LTM 能够学习到无限长的序列信息,并与其他需要长时间记忆的语言模型进行比较。
May, 2023
通过在在线方式处理视频并将过去的视频信息存储在记忆库中,该研究提出了一种用于长期视频理解的高效有效模型,可以超越语言模型的上下文长度限制和 GPU 内存限制,并在多个数据集上实现了最先进的性能。
Apr, 2024
我们提出了 MemWalker,这是一种将长上下文处理成摘要节点树的方法,模型通过迭代提示的方式导航该树以寻找相关信息并一旦收集足够信息便回答问题,在长文本问答任务上,我们方法的性能优于使用长上下文窗口、重复和检索的基线方法。通过交互式阅读文本,MemWalker 还提升了解释能力,突出了推理步骤,并准确指出与查询相关的文本片段。
Oct, 2023
在人工智能领域,大型语言模型(LLM)代理通过自然语言提示来执行任务,消除了显式重新训练或精调的需要,尤其是在诸如常识问题和是 / 否查询等固定答案任务中。然而,将上下文学习应用于开放性挑战,例如诗歌创作,由于提供的示例的全面性和代理的理解问题内容的能力存在显著限制,导致输出与预期结果经常不一致。为了解决这一差距,我们的研究引入了用于 LLM 多代理的记忆共享(MS)框架,该框架利用实时内存存储和检索系统增强上下文学习过程。该系统中的每个 “记忆” 都捕捉了 LLM 代理提出的查询以及相应的实时响应,将来自各种相似代理的这些记忆聚合到所有代理共享的记忆池中。该框架不仅帮助代理识别特定任务的最相关示例,而且通过其他代理应用未来的记忆评估其潜在效用。对涉及代理特定功能的三个不同领域进行的实证验证表明,MS 框架显著提高了代理在开放性问题上的性能。此外,我们还讨论了在 MS 中哪种类型的记忆池和检索策略可以更好地帮助代理,并提供了 MS 的未来发展方向。代码和数据可在此 https URL 获取。
Apr, 2024
通过模仿人脑记忆层次结构,我们提出了分层记忆 Transformer(HMT)框架,以提高模型的长上下文处理能力,并通过在限定上下文和长上下文模型上的评估验证了其有效性。
May, 2024
通过使用参数高效的微调模式和计算仿生记忆机制,我们提出了一种新颖的个人化大语言模型方法,该方法在用户导向的生成任务中展示了卓越的效果和优越性能。
Sep, 2023