选择性机制如何提高自注意力网络？

ACLMay, 2020

选择性机制如何提高自注意力网络？

How Does Selective Mechanism Improve Self-Attention Networks?

Xinwei Geng, Longyue Wang, Xing Wang, Bing Qin, Ting Liu...

TL;DR本文通过评估实现灵活通用的 Gumbel-Softmax 的选择性自注意力网络（SSANs）的性能，在多个代表性 NLP 任务中，包括自然语言推理、语义角色标注和机器翻译，实验结果显示，SSANs 一致优于标准 SANs 并通过良好设计的探针实验证明，其改进性在一定程度上归因于缓解 SANs 的两个常见缺点：词序编码和结构建模，具体而言，选择机制通过更多地关注对句子含义有贡献的内容单词，提高了 SANs 的性能。

Abstract

self-attention networks (SANs) with selective mechanism has produced substantial improvements in various nlp tasks by concentrating on a s

self-attention networks selective mechanism nlp tasks gumbel-softmax structure modeling

发现论文，激发创造

卷积自注意力网络

本篇论文介绍了一种新颖的卷积自注意力网络，通过引入多头注意力机制，加强了邻近元素之间的依赖关系，并能够对各个注意力头提取的特征之间的交互进行建模，用于机器翻译任务中能有效提高自注意力网络的本地性，实验证明该方法优于常用的 Transformer 模型和其他已有的模型，并且没有更多的额外参数。

Apr, 2019

自注意力：情感分析神经网络分类器的更好构建块

本文探讨了使用自注意网络 (Self-Attention Networks) 进行情感分析的有效性，发现相较于循环神经网络 (RNNs) 和卷积神经网络 (CNNs)，使用自注意网络在分类准确率、训练速度和内存消耗方面表现优越，并研究了多头注意力和序列位置信息等方面的改进效果。

Dec, 2018

自注意力网络的特征重要性估计

本文旨在探索利用基于注意力机制的神经网络对特征进行重要性排序以用于模型解释的方法，通过对十个数据集进行规模无关的特征重要性估计算法比较的研究，展示了利用自注意力网络（SAN）对特征进行排序与其他方法在高级别特征识别上的相似性，以及在某些情况下，SAN 对特征交互性的识别比现有基线方法更具优势。

Feb, 2020

自注意力网络学习单词顺序的能力评估

本文探讨了自注意力机制（SAN）在序列建模中缺乏位置信息的问题，并通过一项新的单词重新排序检测任务分别检测了 SAN 和循环神经网络（RNN）的单词位置学习情况，实验结果表明，虽然缺乏循环结构，但在机器翻译中，SAN 通过学习单词位置的方式更为高效。

Jun, 2019

带有结构位置表示的自注意力机制

本文提出将依赖树结构位置表示与传统的序列位置编码相结合，以更好地模拟输入句子的潜在结构，在中文到英文和英文到德语的翻译任务中，分别针对绝对和相对位置编码方式，实验证明提出的方法能够稳定提高自我注意力网络在各种自然语言处理任务上的表现。

Sep, 2019

DiSAN: 面向无 RNN/CNN 的语言理解的定向自注意力网络

提出了一种新颖的方向性多维度自注意力机制 DiSAN，用于句子编码，相对于复杂的 RNN 模型，它在预测质量和时间效率方面表现更好，并在多个数据集上得到了最优的测试准确性表现。

Sep, 2017

SANVis：用于理解自注意力网络的视觉分析

本文介绍了一种名为 SANVis 的可视化分析系统，旨在帮助用户理解多头自我注意力网络的行为和特征，其中通过 Transformer 模型的使用展示了 SANVis 在机器翻译任务中的使用场景。

Sep, 2019

知识为师：基于知识引导的结构化注意力网络

本文介绍了一种知识引导的结构注意力网络 (K-SAN) 模型，其是循环神经网络 (RNN) 的推广，此模型可以自动识别关键的子结构并加以利用，以提高对于自然语言理解的性能，表现优于基于神经网络的现有框架。

Sep, 2016

语义分割的压缩注意力网络

本文提出了一种新颖的挤压和注意力（SA）模块，结合传统卷积实现像素组关注和像素级预测，最终通过融合四个层次的 SANet 的输出来集成多尺度的上下文信息，从而实现了在 PASCAL VOC 和 PASCAL 上的语义分割任务中表现出色。

Sep, 2019

用于图像问答的叠加注意力网络

本文提出了堆叠式注意力网络（SAN），通过自然语言问题分析图像，发现图像问答需要多层推理，于是我们开发了多层 SAN，通过可视化的注意力层，逐层推理以定位答案相关的视觉线索，实验证明 SAN 明显优于先前的最先进方法。

Nov, 2015