探索基于注意力图复用的高效 Transformer 神经网络
提出了两个新的模块,Grouped Self-Attention 和 Compressed Cross-Attention,可在小超参数限制下实现序列长度为 $l$ 的 $O (l)$ 的计算空间和时间复杂度,并且可以捕捉局部的同时考虑全局信息,实验表明,预测时间序列数据时,我们提出的模型展示了降低计算复杂度的高效性,且性能可与现有方法相当甚至更好。
Oct, 2022
本文提出了一种简化的自我注意力(SSAN)层,用于 Transformer 模型的端到端语音识别任务中,以降低模型复杂度和维护良好性能,并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明,我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少,在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低,而且在 20000 小时的大规模任务中,模型失去识别性能。
May, 2020
该研究提出了一种新的模型,该模型仅由注意力层组成。在具体实现中,加入了持续性存储向量来代替前馈层,这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示,该模型在标准字符和词级语言建模基准上表现出良好的效果。
Jul, 2019
本文提出了一种新颖的增强记忆自注意力机制,用于 Transformer 语音识别中的流式应用,相对于现有的可流式 Transformer 方法,减小了计算量并在 Librispeech 基准测试中实现了超过 15% 的相对误差降低。
May, 2020
本文提出了 Tandem 自注意编码和池化(SAEP)机制来获取短语音说话人的辨别性 embedding,该方法利用了自注意力和位置编码,证明了该方法的有效性是比 ResNet-34,ResNet-50 和 x-vector 更高效的。
Aug, 2020
本研究提出了一种新颖的令牌选择性注意力方法,即 ToSA,它可以识别需要参与注意力的令牌以及可以跳过变换器层的令牌。通过应用 ToSA,我们能够显著减少计算成本,同时在 ImageNet 分类基准上保持准确性,并在 NYU Depth V2 的密集预测任务中验证了我们可以使用较轻的主干模型实现类似的深度预测准确性。
Jun, 2024
通过提出改进的语音注意力模型,即基于相似性和基于内容两种不同类型语音自注意力模型,本研究通过简单修改增强了模型对语音特征的提取能力,从而在低层替换自我注意力结构后,提高了语音识别性能而不增加延迟和参数大小。
Mar, 2022
Transformers 在序列建模中取得了重大突破,但计算开销较大,本文提出了一种新的高效计算 attention 的方法,引入了名为 Aaren 的 attention-based 模块,使其能够像 Transformers 一样并行训练,同时像传统的 RNN 一样高效地更新新的 tokens,从而在多个序列问题上取得了可比较的性能,同时具有更高的时间和内存效率。
May, 2024
通过对内存进行注意操作与通过输入信号筛选交互相对来说不够优化,可以利用 Luna 或 Memory Augmented Transformer 等模型减少注意计算复杂度或在块处理中传播信息来显著提高性能。
Mar, 2024