缓存变形器：利用可微记忆缓存改进变形器

AAAIDec, 2023

缓存变形器：利用可微记忆缓存改进变形器

Cached Transformers: Improving Transformers with Differentiable Memory Cache

Zhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu...

TL;DR引入一种名为 Cached Transformer 的新型 Transformer 模型，采用门控循环缓存（GRC）注意力扩展了自注意机制，实现可微分的令牌记忆缓存。GRC 注意力使得可以关注过去和当前的令牌，增大了注意力的感受野，可用于探索长距离的依赖关系。通过使用循环门控单元持续更新缓存，我们的模型在六种语言和视觉任务中实现了显著的进展，包括语言建模、机器翻译、ListOPs、图像分类、物体检测和实例分割。此外，我们的方法超越了先前基于记忆的技术在语言建模等任务中的性能，并展示了适用于更广泛场景的能力。

Abstract

This work introduces a new Transformer model called cached transformer, which uses Gated Recurrent Cached (GRC) attention to extend the self-attention mechanism with a differentiable memory cache of tokens. GRC attention enables attending to both past and current tokens, increasing the

cached transformer gated recurrent cached attention language modeling machine translation long-range dependencies

发现论文，激发创造

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

循环记忆变压器

本文提出并研究了一种记忆增强的分段循环 Transformer 模型 (RMT)，通过通过加入特殊的记忆 tokens 实现，该模型能够存储和处理局部和全局信息，传递长序列片段之间的信息，具有学习长期依赖性和内存处理方面的潜力.

Jul, 2022

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

使用可学习记忆调优图像 Transformer

该研究提出使用可学习的记忆令牌来增强视觉 Transformer 模型，使其适应新任务，使用较少的参数，同时保留先前学习任务的能力。我们引入一组可学习的嵌入向量，即 “记忆令牌”，提供对特定数据集有用的上下文信息。该模型的准确性，通过每层只增加少量记忆令牌来显着改善，表现仅略低于显著更昂贵的完全微调。我们还提出了一个注意力掩模方法，使其能够扩展到新的下游任务，模型可在小的增量成本下同时执行旧任务和新任务。

Mar, 2022

预训练图循环网络用于语言表示

本研究提出了一种基于图循环网络的语言模型预训练方法，其在性能、效率和生成多样性方面优于基于注意力机制的 Transformer，用于自监督学习的时候有较高的潜力。

Sep, 2022

记忆增强生成对抗变换器

本研究探讨了在 Transformers 基础上添加额外的记忆库和注意力层以解决生成语言中的外部数据整合问题，并展示了该方法在处理事实问题和风格适应应用中的实用性。

Feb, 2024

使用连续缓存来改进神经语言模型

本文提出一种扩展神经网络语言模型以适应最近历史的方法，将过去的隐藏活性作为记忆保存，并通过与当前隐藏激活的点积来访问它们，此机制非常高效，能够扩展至非常大的存储空间。同时，作者指出了神经网络外部存储与基于计数的语言模型中缓存模型之间的联系，并在几个语言模型数据集上证明了他们的方法比最近的记忆增强网络性能显着优越。

Dec, 2016

Transformer 循环建模

研究表明，Transformer 模型虽然仅基于注意力机制，但缺乏循环机制限制了其翻译能力的提高，本文提出使用一个额外的循环编码器来直接建模循环，并引入一种新的注意力循环网络来结合注意力和循环网络的优点，在 WMT14 英汉和 WMT17 中英机器翻译任务中取得了良好的表现，研究同时发现通过一个单循环层将源序列和目标序列相连可以显著提高模型性能。

Apr, 2019

具有 Transformer 的内存高效的持续学习

使用预训练 Transformers 并扩展它们与 Adapters，我们开发了一种方法来增量训练模型处理任务序列，成功地避免了灾难性遗忘并且在多个任务上表现良好。

Mar, 2022

连续学习的记忆变压器

记忆转换器是应对神经网络在连续学习中面临的灾难性遗忘挑战的一种方法，通过引入混合适配器和基于生成模型的路由机制来减轻这个问题，实现了各种视觉连续学习任务的最新性能和出色的参数效率。

Apr, 2024