本研究研究了 Transformers 中自注意力机制在音频识别中的应用,发现在训练较高的编码层时,全局视图不是必须的。
Nov, 2020
该研究提出了一种新的模型,该模型仅由注意力层组成。在具体实现中,加入了持续性存储向量来代替前馈层,这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示,该模型在标准字符和词级语言建模基准上表现出良好的效果。
Jul, 2019
本研究采用 Transformer 结构,构建端到端的序列到序列模型,其表现超过了之前的端到端模型和传统混合系统,并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。
Apr, 2019
本文研究了自注意力在建模形式语言方面的计算能力,发现其在处理分层结构时存在强烈的理论限制,但在自然语言处理方面表现卓越。
Jun, 2019
通过引入循环替代方案以解决 transformer 自注意机制中的两个局限,本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法,在强化学习问题中实现了性能的提升。
Oct, 2023
本文讨论了自我注意力(self-attention)在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献,发现了局部对角线模式,并提出用局部高效的自我注意力替代标准自我注意力,通过跳过标准自我注意力废弃的权重来提高模型的效率,但仍保持与基线性能相同。
Apr, 2022
本研究表明防止卷积操作而采用自注意层可以获得与卷积层相同的表现,这提供了一种证明多头自注意层与卷积层至少具有相同表征能力的方法。
Nov, 2019
近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络(RNNs)能够实现线性自注意力,这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程,我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性,并暗示某些 RNNs 可能在内部意外地实现了注意力机制。
Sep, 2023
本文探讨了卷积网络、自注意力网络和循环神经网络在神经机器翻译中的表现。研究发现,自注意力网络和卷积网络在语义特征提取方面表现更好,但在长距离依赖性分析中没有超越循环神经网络。
Aug, 2018
通过对 transformer 中不同标记和 graph neural network 中不同节点在深层的相似性进行分析,我们提出了一个简单的修正项,它可以有效地消除过度平滑问题,在弱监督分割任务上表现优于通常基准方法,并且在非常深的图神经网络架构训练上显著提高了训练效果。
Jun, 2023