上下文感知自注意力网络

AAAIFeb, 2019

Context-Aware Self-Attention Networks

Baosong Yang, Jian Li, Derek Wong, Lidia S. Chao, Xing Wang...

TL;DR通过上下文信息来提高自注意力网络有效性的研究表明，利用内部嵌入全局和深度上下文的方式来上下文化查询和键层变换可以提高翻译任务的性能.

Abstract

self-attention model have shown its flexibility in parallel computation and the effectiveness on modeling both long- and short-term dependencies. However, it calculates the dependencies between representations without considering the →

self-attention model contextual information neural representations query and key layers translation tasks

发现论文，激发创造

自注意力网络的本地性建模

本篇研究提出了一种基于学习性高斯偏置的自注意力网络的局部特征建模方法，能够从更细致的角度获取有用的局部上下文信息，通过实验验证证明该方法能够有效地应用于翻译任务中。

Oct, 2018

基于依赖感知自注意力机制的机器翻译增强

本文研究了将句法知识纳入 Transformer 模型的不同方法，并提出一种新的、无需参数的依赖感知自注意机制，能够提高其翻译质量，特别是在长句子和低资源情况下。作者在 WMT 英德、英土和 WAT 英日翻译任务中展示了每种方法的有效性。

Sep, 2019

自适应上下文池化的高效表征学习

该研究提出了 ContextPool，一种自适应的注意力机制，用于增强在 transformer 模型中的自注意力机制，实现了更强的性能表现（在语言和图像基准测试中），达到了最新的研究结论，并适用于卷积神经网络进行高效的特征学习。

Jul, 2022

自注意力机制的优势：神经机器翻译结构的定向评估

本文探讨了卷积网络、自注意力网络和循环神经网络在神经机器翻译中的表现。研究发现，自注意力网络和卷积网络在语义特征提取方面表现更好，但在长距离依赖性分析中没有超越循环神经网络。

Aug, 2018

序列学习的上下文非局部神经网络

本文提出了 contextualized non-local neural networks (CN3) 模型，它综合了 self-attention 和 graph neural networks 两种方法的优点，能在一定范围内构建特定任务的句子结构，从而在文本分类、语义匹配和序列标注等 10 个 NLP 任务中表现优异。

Nov, 2018

神经主题分割中上下文建模的改进

本文提出了一个基于层级注意力双向 LSTM 网络的主题分割器，通过添加相干性相关的辅助任务和受限制自注意力来更好地建模上下文，从而超过了 SOTA 方法，并在领域转移设置中证明了其鲁棒性和在多语言场景中的有效性。

Oct, 2020

上下文感知的选择性关注神经机器翻译

提出了基于上下文感知 NMT 的层次化注意力机制来处理整个文档的翻译，并使用稀疏注意力机制在文档上选择性地关注相关句子和关键词，将这些注意力模块产生的文档级上下文表示集成到 Transformer 模型的编码器或解码器中，通过在英德数据集上的实验进一步验证了该方法的有效性。

Mar, 2019

卷积自注意力网络

本篇论文介绍了一种新颖的卷积自注意力网络，通过引入多头注意力机制，加强了邻近元素之间的依赖关系，并能够对各个注意力头提取的特征之间的交互进行建模，用于机器翻译任务中能有效提高自注意力网络的本地性，实验证明该方法优于常用的 Transformer 模型和其他已有的模型，并且没有更多的额外参数。

Apr, 2019

自注意力在基于 Transformer 的自动语音识别中的应用价值

本研究研究了 Transformers 中自注意力机制在音频识别中的应用，发现在训练较高的编码层时，全局视图不是必须的。

Nov, 2020

直接语言翻译中注意力的局部性

本文讨论了自我注意力（self-attention）在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献，发现了局部对角线模式，并提出用局部高效的自我注意力替代标准自我注意力，通过跳过标准自我注意力废弃的权重来提高模型的效率，但仍保持与基线性能相同。

Apr, 2022