CAMELoT：针对不需要训练的集成联想存储的大型语言模型

Feb, 2024

CAMELoT：针对不需要训练的集成联想存储的大型语言模型

CAMELoT: Towards Large Language Models with Training-Free Consolidated Associative Memory

Zexue He, Leonid Karlinsky, Donghyun Kim, Julian McAuley, Dmitry Krotov...

TL;DR通过引入关联记忆模块，在不需要重新训练的情况下，使得任何预训练（固定）基于注意力的大型语言模型能够处理任意长的输入序列，从而在长文本建模中实现了显著的困惑度降低。

Abstract

large language models (LLMs) struggle to handle long input sequences due to high memory and runtime costs. memory-augmented models have em

large language models memory-augmented models associative memory module long input sequences perplexity reduction

发现论文，激发创造

增强语言模型的长期记忆

提出了一种名为 LongMem 的框架，该框架通过引入长期记忆机制，使得语言模型能够利用历史上下文信息，从而使得模型在文本生成等任务中取得了优异效果。

Jun, 2023

InfLLM: 揭示 LLM 对于无需训练的记忆理解极长序列的内在能力

通过引入一种无需训练的基于内存的方法 InfLLM，使得大型语言模型 (LLM) 能够高效处理长序列并捕获远距离依赖关系。

Feb, 2024

LLM 的潜在概念关联和转换器中的联想记忆

大型语言模型具有存储和提取事实的能力，并且可以通过改变上下文来操纵提取事实的能力，揭示出它们可能像联想记忆模型一样行为，其中上下文中的某些令牌作为提取事实的线索。我们通过研究 transformer 如何完成此类记忆任务，对这一属性进行了数学探索，使用一个简单的单层 transformer 研究了简单的潜在概念关联问题，理论和经验都表明 transformer 使用自注意力来收集信息并使用值矩阵进行联想记忆。

Jun, 2024

MEMORYLLM: 迈向自我可更新的大型语言模型

MEMORYLLM 是一个自我更新且具有信息记忆能力的模型，它通过在 transformer 的潜在空间中引入固定大小的内存池，能够有效地整合新知识并保持长期信息记录能力，同时维持操作性完整性。

Feb, 2024

LaMemo: 带向前存储的语言建模

本文介绍了一种名为 LaMemo 的模型，它通过增量地注意右侧的标记，并与旧的内存状态插值，以维护历史上的长期信息，它将双向注意力和段重复与附加计算开销相结合，只与内存长度成线性比例关系。实验表明 LaMemo 在广泛使用的语言建模基准测试中优于其他不同类型的内存装备。

Apr, 2022

走入记忆迷宫：通过互动阅读突破环境限制

我们提出了 MemWalker，这是一种将长上下文处理成摘要节点树的方法，模型通过迭代提示的方式导航该树以寻找相关信息并一旦收集足够信息便回答问题，在长文本问答任务上，我们方法的性能优于使用长上下文窗口、重复和检索的基线方法。通过交互式阅读文本，MemWalker 还提升了解释能力，突出了推理步骤，并准确指出与查询相关的文本片段。

Oct, 2023

LoMA：无损压缩的内存注意力

提出了一种新方法，即无损压缩记忆关注（LoMA）方法，可以根据一组压缩比将信息无损地压缩到特殊记忆令牌 KV 对中，实现资源消耗的减少，并取得了显著的结果。

Jan, 2024

主动式长期记忆网络

介绍了 Active Long Term Memory Networks (A-LTM) 模型，该模型能够在序贯多任务深度学习过程中保留以前学习的知识，同时获得新的知识，利用 distillation loss 来主动维护以前学习的信息，并赋予隐藏层向新的多任务目标优化的自由，结果表明 A-LTM 策略可以维持高精度的视角识别，适应复杂的知识领域。

Jun, 2016

MA-LMM：用于长期视频理解的增强记忆大型多模态模型

通过在在线方式处理视频并将过去的视频信息存储在记忆库中，该研究提出了一种用于长期视频理解的高效有效模型，可以超越语言模型的上下文长度限制和 GPU 内存限制，并在多个数据集上实现了最先进的性能。

Apr, 2024

UniMem：面向长上下文大型语言模型的统一视图

提出了 UniMem 框架，将现有的长上下文处理方法从记忆增强的角度进行统一；通过分析 Transformer-XL、Memorizing Transformer、RMT 和 Longformer 等方法，揭示它们的设计原理和优势；基于这些分析，提出了整合这些算法优势的创新方法 UniMix，并通过实验证明了 UniMix 在处理长上下文方面具有比基准模型更低的困惑度。

Feb, 2024