T-GSA:具有高斯加权自注意力机制的变形金刚网络用于语音增强
用基于图滤波的自注意力机制 (GFSA) 在 Transformer 模型中解决了过度平滑问题,提高了在计算机视觉、自然语言处理、图形模式分类、语音识别和代码分类等各领域的性能。
Dec, 2023
本文提出了增强的自注意机制(ESA)用于鲁棒特征提取,并将其融合到 Transformer 网络的编码层中进行自动语音识别(ASR)任务,这一新模型被命名为 GNCformer。通过 Aishell-1 和 HKUST 数据集的实验证明,GNCformer 相较于 Transformer 网络,能分别提高 0.8% 和 1.2%的字符错误率(CER),并且只增加了 1.4M 的额外参数量。
May, 2023
本篇论文提出基于注意力机制的神经机器翻译新架构,采用自注意力和前馈神经网络层来避免递归和卷积,但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型,通过修改注意力层架构,更快地提高 BLEU 得分表现,同时在英译德和英译法机器翻译任务中表现最优。
Nov, 2017
提出了两个新的模块,Grouped Self-Attention 和 Compressed Cross-Attention,可在小超参数限制下实现序列长度为 $l$ 的 $O (l)$ 的计算空间和时间复杂度,并且可以捕捉局部的同时考虑全局信息,实验表明,预测时间序列数据时,我们提出的模型展示了降低计算复杂度的高效性,且性能可与现有方法相当甚至更好。
Oct, 2022
本文讨论了自我注意力(self-attention)在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献,发现了局部对角线模式,并提出用局部高效的自我注意力替代标准自我注意力,通过跳过标准自我注意力废弃的权重来提高模型的效率,但仍保持与基线性能相同。
Apr, 2022
本文提出了一种简化的自我注意力(SSAN)层,用于 Transformer 模型的端到端语音识别任务中,以降低模型复杂度和维护良好性能,并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明,我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少,在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低,而且在 20000 小时的大规模任务中,模型失去识别性能。
May, 2020
近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络(RNNs)能够实现线性自注意力,这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程,我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性,并暗示某些 RNNs 可能在内部意外地实现了注意力机制。
Sep, 2023
GraphSpeech 是在图神经网络框架下提出的神经 TTS 模型,明确编码输入词汇单元在句子中的句法关系,并将此信息合并到 TTS 注意机制中产生用于文本合成的字符表示向量。实验表明,GraphSpeech 在频谱和韵律的呈现方面稳定优于 Transformer TTS 基线。
Oct, 2020
通过将 LSTM 并入已有的 multi-headed dot product attention 机制中作为 gated component self-dependency units,使信息流动更加顺畅,从而提高了在序列学习任务中的性能。同时还成功阐述了其在 context-based Transformer 模型中的应用,即 SDU gates 可以加速优化过程。
Apr, 2020
本研究提出了一种基于距离的自注意力网络模型,利用简单的距离掩码考虑单词之间的距离,以便在不失去全局信息依赖的情况下建立本地依赖关系,并在 NLI 数据方面表现出良好的性能,同时长文档也有优势;而之前的基于注意力机制的模型,则没有考虑到单词之间的距离。
Dec, 2017