探索基于注意力图复用的高效 Transformer 神经网络

Jan, 2023

探索基于注意力图复用的高效 Transformer 神经网络

Exploring Attention Map Reuse for Efficient Transformer Neural Networks

Kyuhong Shim, Jungwook Choi, Wonyong Sung

TL;DR本文研究了基于 Transformer 的自注意力（SA）提取序列特征方案，在注意力地图重用方面做了全面的研究，并证明了其在加速推理方面具有显著的优势。实验结果表明，注意力地图重用方法在 CPU 和 GPU 平台上可以减少推理延迟。

Abstract

transformer-based deep neural networks have achieved great success in various sequence applications due to their powerful ability to model long-range dependency. The key module of transformer is →

transformer self-attention attention map reuse accelerate inference latency

发现论文，激发创造

一种内存高效 Transformer 的分组自注意机制

提出了两个新的模块，Grouped Self-Attention 和 Compressed Cross-Attention，可在小超参数限制下实现序列长度为 $l$ 的 $O (l)$ 的计算空间和时间复杂度，并且可以捕捉局部的同时考虑全局信息，实验表明，预测时间序列数据时，我们提出的模型展示了降低计算复杂度的高效性，且性能可与现有方法相当甚至更好。

Oct, 2022

基于 Transformer 的端到端语音识别中简化的自注意力机制

本文提出了一种简化的自我注意力（SSAN）层，用于 Transformer 模型的端到端语音识别任务中，以降低模型复杂度和维护良好性能，并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明，我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少，在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低，而且在 20000 小时的大规模任务中，模型失去识别性能。

May, 2020

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

基于自注意力和增强记忆的流式 Transformer 声学模型

本文提出了一种新颖的增强记忆自注意力机制，用于 Transformer 语音识别中的流式应用，相对于现有的可流式 Transformer 方法，减小了计算量并在 Librispeech 基准测试中实现了超过 15% 的相对误差降低。

May, 2020

自注意力编码与池化在说话人识别中的应用

本文提出了 Tandem 自注意编码和池化（SAEP）机制来获取短语音说话人的辨别性 embedding，该方法利用了自注意力和位置编码，证明了该方法的有效性是比 ResNet-34，ResNet-50 和 x-vector 更高效的。

Aug, 2020

高效的长程注意力网络用于图像超分辨率

该论文提出了一种高效的长程注意力网络，使用变换器和转移学习结构可用于图像超分辨率，其中包括自我注意力机制、移位卷积和多尺度自我注意力模块。

Mar, 2022

ToSA：用于高效视觉 Transformer 的令牌选择性注意力

本研究提出了一种新颖的令牌选择性注意力方法，即 ToSA，它可以识别需要参与注意力的令牌以及可以跳过变换器层的令牌。通过应用 ToSA，我们能够显著减少计算成本，同时在 ImageNet 分类基准上保持准确性，并在 NYU Depth V2 的密集预测任务中验证了我们可以使用较轻的主干模型实现类似的深度预测准确性。

Jun, 2024

语音识别中的相似性和基于内容的音素自注意力机制

通过提出改进的语音注意力模型，即基于相似性和基于内容两种不同类型语音自注意力模型，本研究通过简单修改增强了模型对语音特征的提取能力，从而在低层替换自我注意力结构后，提高了语音识别性能而不增加延迟和参数大小。

Mar, 2022

注意力作为一个 RNN

Transformers 在序列建模中取得了重大突破，但计算开销较大，本文提出了一种新的高效计算 attention 的方法，引入了名为 Aaren 的 attention-based 模块，使其能够像 Transformers 一样并行训练，同时像传统的 RNN 一样高效地更新新的 tokens，从而在多个序列问题上取得了可比较的性能，同时具有更高的时间和内存效率。

May, 2024

关于共享内存中注意力因子化的困难

通过对内存进行注意操作与通过输入信号筛选交互相对来说不够优化，可以利用 Luna 或 Memory Augmented Transformer 等模型减少注意计算复杂度或在块处理中传播信息来显著提高性能。

Mar, 2024