用于基于记忆的 Transformer 的内存高效随机方法

Nov, 2023

用于基于记忆的 Transformer 的内存高效随机方法

Memory-efficient Stochastic methods for Memory-based Transformers

Vishwajit Kumar Vishnu, C. Chandra Sekhar

TL;DR我们提出了一种新颖的两阶段训练机制和一种新颖的正则化技术，以提高基于内存的 Transformer 的训练效率，该模型通常用于解决长程背景问题。我们在字符级语言模型任务上展示了我们的结果模型 Skip Cross-head TransformerXL，在相似参数下优于基线模型，并在词级语言建模任务上优于基线模型，参数减少近 20%。我们提出的方法不需要额外的内存。我们还展示了我们在 BERT 上的正则化机制的有效性，该机制在多个 GLUE 任务中表现出相似性能，并降低了标准差约 30%。

Abstract

Training memory-based transformers can require a large amount of memory and can be quite inefficient. We propose a novel two-phase training mechanism and a novel regularization technique to improve the training efficien

memory-based transformers training efficiency long-range context problems skip cross-head transformerxl regularization mechanism

发现论文，激发创造

TRAMS：无需训练的长程语言模型记忆选择

提出了一种称为 TRAining-free Memory Selection (TRAMS) 的插拔式策略，通过一个简单的评价指标选择参与注意力计算的令牌，从而改善长程语言建模的挑战，无需额外训练或添加参数，通过在 word-level benchmark (WikiText-103) 和 character-level benchmark (enwik8) 上的测试取得了改进的结果。

Oct, 2023

Transformer 是否需要深度长程记忆

通过一系列干预措施，研究表明使用更少的长时记忆和限制网络低层的注意力范围，可以实现与 Transformer-XL 相当的性能，并且可以获得更好的性能。

Jul, 2020

处理长篇文档的全局记忆转换器

本研究主要探讨了在 Transformer 模型中添加通用记忆单元对其性能的影响，通过使用遮掩语言建模和 HotpotQA 微调任务的实验数据表明，添加通用记忆单元可以提高模型性能。

Dec, 2022

具有 Transformer 的内存高效的持续学习

使用预训练 Transformers 并扩展它们与 Adapters，我们开发了一种方法来增量训练模型处理任务序列，成功地避免了灾难性遗忘并且在多个任务上表现良好。

Mar, 2022

Transformer-XL: 超越固定长度上下文的关注式语言模型

提出了一种名为 Transformer-XL 的神经架构，它能够在语言模型的设定中超越固定长度的依赖关系，并且不会破坏时间上的一致性。通过分段级别的循环机制和一种新颖的位置编码方案，Transformer-XL 不仅能够捕捉更长期的依赖关系，而且还解决了上下文破碎问题。在评估期间，它的速度比普通的 Transformers 要快 1,800 多倍，并且在短序列和长序列上表现更好。实验结果显示，在多个语料库上，Transformer-XL 都比目前的最先进结果表现要好。

Jan, 2019

用于对话建模的状态性记忆增强变压器

本研究提出一种新的记忆增强型 Transformer 模型，该模型可在不影响对话历史信息的情况下适应长序列处理，并且在相对于其他预训练 Transformer 模型存在着更高的效率和性能。

Sep, 2022

自适应半参数语言模型

该研究提出了一种结合大型参数神经网络和非参数周期性记忆组件的语言模型，通过缓存本地隐藏状态和检索一组最近的邻居标记来使用扩展的短期上下文和全局长期记忆，并设计门控函数来自适应地组合多个信息源来做出预测。

Feb, 2021

扩展心智转换器

预训练语言模型在推理时过长的输入会迅速成为记忆信息的瓶颈。本文提出了一种简单的方法，使用记忆转换器给模型提供预先计算的记忆库，通过批判性评估定位编码应如何更新以检索关键信息，而非使用外部嵌入。我们展示了在大多数解码器层中检索外部信息的重要性，并公开了一个新的反事实长距离检索基准。实验证明，扩展心智转换器在平均性能上超过了当今的最先进水平。

Jun, 2024

使用可学习记忆调优图像 Transformer

该研究提出使用可学习的记忆令牌来增强视觉 Transformer 模型，使其适应新任务，使用较少的参数，同时保留先前学习任务的能力。我们引入一组可学习的嵌入向量，即 “记忆令牌”，提供对特定数据集有用的上下文信息。该模型的准确性，通过每层只增加少量记忆令牌来显着改善，表现仅略低于显著更昂贵的完全微调。我们还提出了一个注意力掩模方法，使其能够扩展到新的下游任务，模型可在小的增量成本下同时执行旧任务和新任务。

Mar, 2022

超越缩放定律：理解具有关联记忆的 Transformer 性能

增加 Transformer 模型的大小并不总是导致性能提升，用经验缩放定律无法解释此现象。此外，模型记忆训练样本会改善泛化能力。我们提出了一个理论框架，揭示了基于 Transformer 的语言模型的记忆过程和性能动态。我们使用关联记忆的 Hopfield 网络来模拟 Transformer 的行为，使每个 Transformer 模块能够有效进行近似最近邻搜索。基于此，我们设计了一个能量函数，类似于现代连续 Hopfield 网络中的函数，对注意力机制提供了有见地的解释。利用最大化 - 最小化技术，我们构建了一个全局能量函数，捕捉了 Transformer 的层次结构。在特定条件下，我们证明了最小可达的交叉熵损失下界约为 1。通过对不同数据规模运行 GPT-2 实验证实了我们的理论结果，以及在一个包含 2M 令牌的数据集上训练 vanilla Transformers。

May, 2024