扩展心智转换器

Jun, 2024

Extended Mind Transformers

Phoebe Klett, Thomas Ahle

TL;DR预训练语言模型在推理时过长的输入会迅速成为记忆信息的瓶颈。本文提出了一种简单的方法，使用记忆转换器给模型提供预先计算的记忆库，通过批判性评估定位编码应如何更新以检索关键信息，而非使用外部嵌入。我们展示了在大多数解码器层中检索外部信息的重要性，并公开了一个新的反事实长距离检索基准。实验证明，扩展心智转换器在平均性能上超过了当今的最先进水平。

Abstract

pre-trained language models demonstrate general intelligence and common sense, but long inputs quickly become a bottleneck for memorizing information at inference time. We resurface a simple method, memorizing transform

pre-trained language models memorizing transformers positional encodings retrieval benchmark extended mind transformers

发现论文，激发创造

记忆 Transformer

本文介绍了一种使用内部储存器实现直接读取并记忆新数据的语言模型，在多个基准测试和任务中展示了近似 kNN 查找技术，着重测试了代码和数学等领域，并证明了随着储存器大小的增加，性能将稳步提高。

Mar, 2022

Transformer 是否需要深度长程记忆

通过一系列干预措施，研究表明使用更少的长时记忆和限制网络低层的注意力范围，可以实现与 Transformer-XL 相当的性能，并且可以获得更好的性能。

Jul, 2020

修改 Transformer 模型中的记忆

本文提出了一个新任务，即在确保模型在未修改的信息方面的性能不降低的情况下显式修改 Transformer 模型中特定的事实知识，并在此任务上基准化了几种方法，发现了用于知识修改的 Transformer 模型的关键组件，并提供了关于不同训练阶段（如预训练和微调）对记忆和知识修改所起作用的见解。

Dec, 2020

深思熟虑：带有内部工作记忆的决策 Transformer

本文提出了一种基于内部工作记忆模块的决策制定代理，可以通过存储、混合和检索信息来改善其在不同下游任务中的训练效率和泛化能力，并进一步证明记忆微调可以增强所提出架构的适应性。

May, 2023

TRAMS：无需训练的长程语言模型记忆选择

提出了一种称为 TRAining-free Memory Selection (TRAMS) 的插拔式策略，通过一个简单的评价指标选择参与注意力计算的令牌，从而改善长程语言建模的挑战，无需额外训练或添加参数，通过在 word-level benchmark (WikiText-103) 和 character-level benchmark (enwik8) 上的测试取得了改进的结果。

Oct, 2023

用于对话建模的状态性记忆增强变压器

本研究提出一种新的记忆增强型 Transformer 模型，该模型可在不影响对话历史信息的情况下适应长序列处理，并且在相对于其他预训练 Transformer 模型存在着更高的效率和性能。

Sep, 2022

一种高效的记忆增强转换器，用于知识密集型 NLP 任务

提出了 Efficient Memory-Augmented Transformer (EMAT) 作为一种结合参数式模型和检索式增强模型的方法，有效地利用外部知识源以提高自然语言处理任务的准确性和计算效率。通过将外部知识编码为键值内存，并利用内积搜索来查询，使用预训练任务编码有信息的键值表示，并学习将多个内存插槽集成到变压器中的隐式策略，EMAT 在众多知识密集型任务上取得了更准确的结果。

Oct, 2022

具有 Transformer 的内存高效的持续学习

使用预训练 Transformers 并扩展它们与 Adapters，我们开发了一种方法来增量训练模型处理任务序列，成功地避免了灾难性遗忘并且在多个任务上表现良好。

Mar, 2022

记忆增强生成对抗变换器

本研究探讨了在 Transformers 基础上添加额外的记忆库和注意力层以解决生成语言中的外部数据整合问题，并展示了该方法在处理事实问题和风格适应应用中的实用性。

Feb, 2024

大内存系统上的记忆化加速 Transformer

本研究介绍一种基于缓存优化技术的变压器模型加速方案，通过建立基于大内存系统的注意力数据库来加速注意力计算，从而实现了平均 21％的性能提升（最高 68％），并且在推理准确性上有可忽略的损失。

Jan, 2023