掩码注意力网络：对 Transformer 进行反思和优化

ACLMar, 2021

掩码注意力网络：对 Transformer 进行反思和优化

Mask Attention Networks: Rethinking and Strengthen Transformer

Zhihao Fan, Yeyun Gong, Dayiheng Liu, Zhongyu Wei, Siyuan Wang...

TL;DR本文提出了一种新的理解 Self-Attention Network (SAN) 和 Feed-Forward Network (FFN) 为遮罩注意力网络 (Mask Attention Networks)，并展示了它们是具有固定遮罩矩阵的 MAN 的两个特例。但是，它们的静态遮罩矩阵限制了文本表示学习中的本地性建模能力。因此，我们引入了一种新的层，名为动态遮罩注意力网络 (DMAN)，它具有可学习的遮罩矩阵，可以自适应地建模本地性。为了结合 DMAN、SAN 和 FFN 的优点，我们提出了一个顺序分层结构。在各种任务（包括神经机器翻译和文本摘要）上的广泛实验证明，我们的模型优于原来的 Transformer。

Abstract

transformer is an attention-based neural network, which consists of two sublayers, namely, Self-Attention Network (SAN) and Feed-Forward Network (FFN). Existing research explores to enhance the two sublayers sepa

transformer attention-based neural network mask attention networks dynamic mask attention network localness modeling

发现论文，激发创造

混合自注意力网络用于机器翻译

本研究中，我们提出了一种名为 HySAN 的新型自注意力机制，它可以通过针对不同类型的自注意力网络设计特定的掩码来提取各种语义，并引入挤压门来融合不同类型的自注意力网络，在三个机器翻译任务上实现了优于 Transform 的显著基线，并实现了超越最先进的 NMT 系统的卓越结果。

Nov, 2018

基于 Transformer 的端到端语音识别中简化的自注意力机制

本文提出了一种简化的自我注意力（SSAN）层，用于 Transformer 模型的端到端语音识别任务中，以降低模型复杂度和维护良好性能，并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明，我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少，在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低，而且在 20000 小时的大规模任务中，模型失去识别性能。

May, 2020

卷积自注意力网络

本篇论文介绍了一种新颖的卷积自注意力网络，通过引入多头注意力机制，加强了邻近元素之间的依赖关系，并能够对各个注意力头提取的特征之间的交互进行建模，用于机器翻译任务中能有效提高自注意力网络的本地性，实验证明该方法优于常用的 Transformer 模型和其他已有的模型，并且没有更多的额外参数。

Apr, 2019

变压器辅助的语义通信

通过使用 transformer 结构进行特征提取，以实现图像压缩和紧凑表示，从而优化语义通信的质量和带宽利用效率。

May, 2024

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

多层可学习的多模态任务注意力掩码

通过引入可学习的注意力掩码（LAM）来全局调控注意力图并优先选择序列中的关键标记，该方法在 BERT-like transformer 网络中充分捕捉了标记之间的关联，通过对多层版本的 LAM 的扩展适应了 Transformer 网络各层的不同信息，实验证明该方法在不同数据集上有效地提升模型性能并减少冗余计算，从而对复杂情景理解方面，如电影理解等，取得了显著的进展。

Jun, 2024

多方位注意力提升人群计数

该论文提出了一种名为 Multifaceted Attention Network 的深度学习模型，通过引入局部关注、全局关注和实例关注机制来对人群计数中存在的局部空间变化进行编码。实验结果表明该模型在四种不同数据集下表现出色。

Mar, 2022

一种广泛前馈即可解决所有问题

通过删除解码器层的 FFN 并在编码器中共享单个 FFN，我们能够大幅减少参数数量，只有轻微的准确率下降，最终通过增加共享 FFN 的隐藏维度将这个架构恢复到原始尺寸，从而取得了在准确率和延迟方面的显著提升。

Sep, 2023

如何提升图像修复中的注意力潜力？

通过连续缩放注意力（CSAttn）方法，无需使用 FFN 来进行图像恢复任务，实验证明一些简单的操作可以显著影响模型性能，并展示了 CSAttn 在图像恢复任务中优于基于 CNN 和 Transformer 的方法。

Mar, 2024

SANVis：用于理解自注意力网络的视觉分析

本文介绍了一种名为 SANVis 的可视化分析系统，旨在帮助用户理解多头自我注意力网络的行为和特征，其中通过 Transformer 模型的使用展示了 SANVis 在机器翻译任务中的使用场景。

Sep, 2019