神经语言建模中短暂的注意力问题

ICLRFeb, 2017

神经语言建模中短暂的注意力问题

Frustratingly Short Attention Spans in Neural Language Modeling

Michał Daniluk, Tim Rocktäschel, Johannes Welbl, Sebastian Riedel

TL;DR本论文提出了一种有键 - 值注意机制的神经语言模型，能够输出不同的 key 和 value 表示，同时对下一个单词的分布进行编码，比现有的基于记忆的、神经语言模型表现更好，但发现该方法主要利用最近五个输出表示的记忆。

Abstract

neural language models predict the next token using a latent representation of the immediate token history. Recently, various methods for augmenting neural language models with an →

neural language models attention mechanism memory token history distribution

发现论文，激发创造

键 - 值记忆增强的神经机器翻译

提出了一种基于键值记忆的注意力机制模型用于神经机器翻译，通过维护及时更新的键内存来跟踪注意力历史和固定值内存来存储源语句的表示，在两个记忆之间进行非平凡的转换和迭代交互，以便每个解码步骤时，可以关注更合适的源单词来预测下一个目标单词从而提高翻译的适用性。在中英文和 WMT17 德英翻译任务的实验结果表明了所提出的模型的优越性。

Jun, 2018

限制记忆能力的语言模型捕捉人类句子处理中的干扰

该研究通过开发一个具有单个自注意头的循环神经语言模型，捕捉到了人类实验中观察到的语义和句法干扰效应。

Oct, 2023

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

神经机器翻译的时间注意模型

本文介绍了一种基于注意力机制的神经机器翻译模型，该模型通过暂时性存储对齐信息和调节注意力值的方法，提高了翻译效果，在两种语言对上的大规模实验中，该方法不仅超越了基线 NMT 模型，还比其他相关方法表现更出色，甚至有些情况下在不使用集成的情况下也能胜过 SMT 基准。

Aug, 2016

基于循环注意力模型的神经机器翻译

通过使用一个循环网络来明确地建模词语先前和随后的注意力水平之间的关系，我们改进了 Bahdanau 等人（2014）的注意力模型，并且我们的参数化注意力模型的实验表明其可以提高翻译质量。

Jul, 2016

语言模型的时间注意力

该研究提出了一种时间感知的自注意力机制 —— 时间注意力，用于任何基于变形器模型的预训练语言模型中，以捕捉上下文中的时间信息，并应用于语义变化检测任务，在三个不同语言的数据集上取得最先进的结果。

Feb, 2022

评估序列到序列模型的增量性

该研究提出三个新的指标以评估具有和不具有注意力机制的 RNN 的行为，发现不同模型类型处理句子的方式存在关键差异，这揭示了人类和注意力中心方法在语言处理方面的行为上存在的显著对比。

Jun, 2019

人类记忆与深度语言模型：模型增强相关假设的联系

该论文主要探讨利用人类记忆系统中的交叉连接假设来增强记忆增强型 Transformers 模型，并以惊奇度作为交叉连接假设模型进行实证研究，并识别该方法的局限性以指导未来的研究。

Oct, 2022

主动内存能否取代注意力？

本文分析了活性内存模型在机器翻译等自然语言处理任务中的不足，并提出了一种扩展模型来弥补这些不足，该模型能够与现有的注意力模型匹配并更好地泛化到更长的句子。然后，我们讨论了活性内存模型的优点以及注意力模型更适合的场景。

Oct, 2016

递归内存寻址描述视频

本文提出了 Key-Value Memory Networks 应用于多模态设置的方法，以及一种新的键寻址机制，将视频字幕生成问题自然地分解为视觉和语言端，将其作为键 - 值对处理，并在寻址模式下提出了一种递归关注的方法来捕捉语境信息，通过实验发现，这种方法可以提高 BLEU@4，METEOR 得分，并实现了与最先进方法竞争性能。

Nov, 2016