使用随机矩阵理论将 Transformer 扩展到 1M 个标记及以上

Apr, 2023

使用随机矩阵理论将 Transformer 扩展到 1M 个标记及以上

Scaling Transformer to 1M tokens and beyond with RMT

Aydar Bulatov, Yuri Kuratov, Mikhail S. Burtsev

TL;DR运用循环记忆技术扩展了 BERT 在自然语言处理中的作用，在保持高精度的同时，将模型的有效上下文长度提高到两百万个 tokens，具有广泛的应用潜力。

Abstract

This technical report presents the application of a recurrent memory to extend the context length of bert, one of the most effective Transformer-based models in →

recurrent memory transformer bert natural language processing context length dependency handling

发现论文，激发创造

循环记忆变压器

本文提出并研究了一种记忆增强的分段循环 Transformer 模型 (RMT)，通过通过加入特殊的记忆 tokens 实现，该模型能够存储和处理局部和全局信息，传递长序列片段之间的信息，具有学习长期依赖性和内存处理方面的潜力.

Jul, 2022

地标注意力：随机访问变形金刚的无限上下文长度

本论文提出一种新方法，使用地标标记来代表输入的每个块，并通过训练使注意力选择相关块，从而使我们可以访问完整的上下文并保留随机访问灵活性。该方法与专用数据结构和系统的内存层次结构无缝集成，可以处理任意长度的上下文长度。

May, 2023

学习记忆：用循环记忆的 Transformer 进行文档级机器翻译

介绍了一种新的循环记忆单元来加强 Transformer 框架下文档级机器翻译的一致性，提出了一种两阶段的训练策略，实现了在三个流行数据集上的优异表现，并在 TED 和 News 数据集上实现了比过去最好结果更好的结果。

May, 2022

HMT：用于长文本语言处理的分层记忆变形器

通过模仿人脑记忆层次结构，我们提出了分层记忆 Transformer（HMT）框架，以提高模型的长上下文处理能力，并通过在限定上下文和长上下文模型上的评估验证了其有效性。

May, 2024

循环记忆决策 Transformer

本文提出了递归记忆决策变换器（RMDT），使用递归记忆机制用于强化学习问题，旨在改善大规模转换器模型在离线强化学习任务中的表现，实验证明，其性能明显优于没有递归记忆机制的同类模型。

Jun, 2023

寻找一千万根干草堆中的针：循环记忆找到了低语言模型所错过的

本研究论文通过引入 BABILong 基准来评估模型在提取和处理长文本中分布式事实的能力，发现传统方法只适用于长度为 10^4 的序列，而使用细调 GPT-2 与循环记忆增强可以处理长度为 10^7 元素的任务，这一成就大大提高了长序列处理能力。

Feb, 2024

TRAMS：无需训练的长程语言模型记忆选择

提出了一种称为 TRAining-free Memory Selection (TRAMS) 的插拔式策略，通过一个简单的评价指标选择参与注意力计算的令牌，从而改善长程语言建模的挑战，无需额外训练或添加参数，通过在 word-level benchmark (WikiText-103) 和 character-level benchmark (enwik8) 上的测试取得了改进的结果。

Oct, 2023

部署长上下文变压器的挑战：理论峰值性能分析

为了降低长上下文 Transformer 模型的成本并解决效率挑战，本研究提出了一种并行编程框架，用于定量分析在 GPU 高带宽内存限制下为多个长上下文请求提供服务时所面临的效率挑战，并识别出减少 1M 上下文推断成本的可能方向。

May, 2024

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021

高效的无限上下问 Transformer 与无限注意力

该研究介绍了一种有效的方法，用于将基于 Transformer 的大型语言模型扩展到无限长的输入，同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术，它将压缩性记忆融入到传统的注意力机制中，并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性，使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数，并实现了 LLMs 的快速流式推理。

Apr, 2024