增强语言模型的长期记忆

Jun, 2023

Augmenting Language Models with Long-Term Memory

Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan...

TL;DR提出了一种名为 LongMem 的框架，该框架通过引入长期记忆机制，使得语言模型能够利用历史上下文信息，从而使得模型在文本生成等任务中取得了优异效果。

Abstract

Existing large language models (LLMs) can only afford fix-sized inputs due to the input length limit, preventing them from utilizing rich long-context information from past inputs. To address this, we propose a framework, Language Models Augmented with →

language models long-term memory memory retrieval contextual learning adaptive residual network

发现论文，激发创造

UniMem：面向长上下文大型语言模型的统一视图

提出了 UniMem 框架，将现有的长上下文处理方法从记忆增强的角度进行统一；通过分析 Transformer-XL、Memorizing Transformer、RMT 和 Longformer 等方法，揭示它们的设计原理和优势；基于这些分析，提出了整合这些算法优势的创新方法 UniMix，并通过实验证明了 UniMix 在处理长上下文方面具有比基准模型更低的困惑度。

Feb, 2024

MEMORYLLM: 迈向自我可更新的大型语言模型

MEMORYLLM 是一个自我更新且具有信息记忆能力的模型，它通过在 transformer 的潜在空间中引入固定大小的内存池，能够有效地整合新知识并保持长期信息记录能力，同时维持操作性完整性。

Feb, 2024

CAMELoT：针对不需要训练的集成联想存储的大型语言模型

通过引入关联记忆模块，在不需要重新训练的情况下，使得任何预训练（固定）基于注意力的大型语言模型能够处理任意长的输入序列，从而在长文本建模中实现了显著的困惑度降低。

Feb, 2024

MemoryBank：用长期内存增强大语言模型

提出了 MemoryBank，这是一种采用 Ebbinghaus 遗忘曲线中的记忆更新机制的新型记忆机制，旨在解决长期交互中 LLM 的记忆缺陷问题，并通过与心理对话调整提高其同理心。通过实验研究，证明了 MemoryBank 能够成功提高聊天机器人在长期 AI Companion 中的表现能力。

May, 2023

扩展语言模型的记忆

本文介绍了长期记忆网络 (LTM) 以解决自然语言理解模型在处理长的序列文本时出现的问题。通过在语言建模任务上进行测试，我们发现 LTM 能够学习到无限长的序列信息，并与其他需要长时间记忆的语言模型进行比较。

May, 2023

MA-LMM：用于长期视频理解的增强记忆大型多模态模型

通过在在线方式处理视频并将过去的视频信息存储在记忆库中，该研究提出了一种用于长期视频理解的高效有效模型，可以超越语言模型的上下文长度限制和 GPU 内存限制，并在多个数据集上实现了最先进的性能。

Apr, 2024

走入记忆迷宫：通过互动阅读突破环境限制

我们提出了 MemWalker，这是一种将长上下文处理成摘要节点树的方法，模型通过迭代提示的方式导航该树以寻找相关信息并一旦收集足够信息便回答问题，在长文本问答任务上，我们方法的性能优于使用长上下文窗口、重复和检索的基线方法。通过交互式阅读文本，MemWalker 还提升了解释能力，突出了推理步骤，并准确指出与查询相关的文本片段。

Oct, 2023

基于大型语言模型的智能体的记忆共享

在人工智能领域，大型语言模型（LLM）代理通过自然语言提示来执行任务，消除了显式重新训练或精调的需要，尤其是在诸如常识问题和是 / 否查询等固定答案任务中。然而，将上下文学习应用于开放性挑战，例如诗歌创作，由于提供的示例的全面性和代理的理解问题内容的能力存在显著限制，导致输出与预期结果经常不一致。为了解决这一差距，我们的研究引入了用于 LLM 多代理的记忆共享（MS）框架，该框架利用实时内存存储和检索系统增强上下文学习过程。该系统中的每个 “记忆” 都捕捉了 LLM 代理提出的查询以及相应的实时响应，将来自各种相似代理的这些记忆聚合到所有代理共享的记忆池中。该框架不仅帮助代理识别特定任务的最相关示例，而且通过其他代理应用未来的记忆评估其潜在效用。对涉及代理特定功能的三个不同领域进行的实证验证表明，MS 框架显著提高了代理在开放性问题上的性能。此外，我们还讨论了在 MS 中哪种类型的记忆池和检索策略可以更好地帮助代理，并提供了 MS 的未来发展方向。代码和数据可在此 https URL 获取。

Apr, 2024

HMT：用于长文本语言处理的分层记忆变形器

通过模仿人脑记忆层次结构，我们提出了分层记忆 Transformer（HMT）框架，以提高模型的长上下文处理能力，并通过在限定上下文和长上下文模型上的评估验证了其有效性。

May, 2024

基于记忆增强的 LLM 个性化学习，短期和长期记忆协调

通过使用参数高效的微调模式和计算仿生记忆机制，我们提出了一种新颖的个人化大语言模型方法，该方法在用户导向的生成任务中展示了卓越的效果和优越性能。

Sep, 2023