记忆增强型大语言模型是计算通用的

Jan, 2023

记忆增强型大语言模型是计算通用的

Memory Augmented Large Language Models are Computationally Universal

Dale Schuurmans

TL;DR我们展示了通过增加外部记忆来增强变压器型大语言模型以实现计算机普适性的方法。在不修改语言模型权重的情况下，我们将迭代设计被存储的指令计算机以精确模拟通用图灵机 U 15,2，从而证明了这一方法的可行性。

Abstract

We show that transformer-based large language models are computationally universal when augmented with an external memory. Any deterministic language model that conditions on strings of bounded length is equivale

transformer-based language model external memory turing machine instruction computer

发现论文，激发创造

增强语言模型的长期记忆

提出了一种名为 LongMem 的框架，该框架通过引入长期记忆机制，使得语言模型能够利用历史上下文信息，从而使得模型在文本生成等任务中取得了优异效果。

Jun, 2023

MEMORYLLM: 迈向自我可更新的大型语言模型

MEMORYLLM 是一个自我更新且具有信息记忆能力的模型，它通过在 transformer 的潜在空间中引入固定大小的内存池，能够有效地整合新知识并保持长期信息记录能力，同时维持操作性完整性。

Feb, 2024

L2MAC：大型语言模型自动计算机无限编码生成

Transformer-based language models are limited by a fixed window size, but this paper proposes L2MAC, a memory-augmented stored-program automatic computer that can generate long and consistent code surpassing the limitations of the context window, fulfilling complex user-specified requirements.

Oct, 2023

基于记忆增强查找字典的语言建模自动语音识别

该研究提出了一种新的内存增强的查找字典的 Transformer 语言模型，并证明了它在长尾预测问题上的有效性，提高了自动语音识别解码效率，特别是对于长尾词的识别表现更佳。

Dec, 2022

人类记忆与深度语言模型：模型增强相关假设的联系

该论文主要探讨利用人类记忆系统中的交叉连接假设来增强记忆增强型 Transformers 模型，并以惊奇度作为交叉连接假设模型进行实证研究，并识别该方法的局限性以指导未来的研究。

Oct, 2022

LLM 闪电般的运算：利用有限内存高效推理的大型语言模型

本研究旨在通过使用闪存将模型参数存储在 DRAM 之外，以满足超过 DRAM 容量的大型语言模型（LLMs）的高效运行需求。本文提出了两种主要技术，即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行，并在与传统加载方法相比，CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计，为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。

Dec, 2023

CAMELoT：针对不需要训练的集成联想存储的大型语言模型

通过引入关联记忆模块，在不需要重新训练的情况下，使得任何预训练（固定）基于注意力的大型语言模型能够处理任意长的输入序列，从而在长文本建模中实现了显著的困惑度降低。

Feb, 2024

记忆 Transformer

本文介绍了一种使用内部储存器实现直接读取并记忆新数据的语言模型，在多个基准测试和任务中展示了近似 kNN 查找技术，着重测试了代码和数学等领域，并证明了随着储存器大小的增加，性能将稳步提高。

Mar, 2022

人类记忆和大型语言模型的方面

大型语言模型（LLMs）是巨大的人工神经网络，主要用于生成文本，但同时也提供了一个非常复杂的语言使用概率模型。我们调查了 LLMs 的记忆特性，并发现它与人类记忆的关键特征存在惊人的相似性，这一结果强烈暗示了人类记忆的生物特征对我们构建文本叙述的方式产生了影响。

Nov, 2023

RET-LLM：面向大型语言模型的通用读写内存

提出了一种新的 RET-LLM 框架，它为 LLMs 提供了一个通用的写 - 读内存单元，使它们能够从文本中提取、存储和检索知识，以便进行任务执行。通过 Davidsonian 语义理论，以三元组的形式提取和保存知识，在问答任务中展现出比基线方法更卓越的性能。此外，该框架在处理基于时间的问题回答任务时表现出了强大的性能，展示了它有效处理时态信息的能力。

May, 2023