自注意力网络的特征重要性估计
本篇论文介绍了一种新颖的卷积自注意力网络,通过引入多头注意力机制,加强了邻近元素之间的依赖关系,并能够对各个注意力头提取的特征之间的交互进行建模,用于机器翻译任务中能有效提高自注意力网络的本地性,实验证明该方法优于常用的 Transformer 模型和其他已有的模型,并且没有更多的额外参数。
Apr, 2019
本文探讨了使用自注意网络 (Self-Attention Networks) 进行情感分析的有效性,发现相较于循环神经网络 (RNNs) 和卷积神经网络 (CNNs),使用自注意网络在分类准确率、训练速度和内存消耗方面表现优越,并研究了多头注意力和序列位置信息等方面的改进效果。
Dec, 2018
本文介绍了一种名为 SANVis 的可视化分析系统,旨在帮助用户理解多头自我注意力网络的行为和特征,其中通过 Transformer 模型的使用展示了 SANVis 在机器翻译任务中的使用场景。
Sep, 2019
本文通过评估实现灵活通用的 Gumbel-Softmax 的选择性自注意力网络(SSANs)的性能,在多个代表性 NLP 任务中,包括自然语言推理、语义角色标注和机器翻译,实验结果显示,SSANs 一致优于标准 SANs 并通过良好设计的探针实验证明,其改进性在一定程度上归因于缓解 SANs 的两个常见缺点:词序编码和结构建模,具体而言,选择机制通过更多地关注对句子含义有贡献的内容单词,提高了 SANs 的性能。
May, 2020
该研究提出了一种基于注意力机制的深度神经网络模型解释方法,通过可视化生成的热图分析分类准确性和注意力之间的关系,并证明了使用改进注意力方法可以更好的展示分类器的解释。
Jan, 2019
本文探讨了卷积网络、自注意力网络和循环神经网络在神经机器翻译中的表现。研究发现,自注意力网络和卷积网络在语义特征提取方面表现更好,但在长距离依赖性分析中没有超越循环神经网络。
Aug, 2018
提出了一种新颖的方向性多维度自注意力机制 DiSAN,用于句子编码,相对于复杂的 RNN 模型,它在预测质量和时间效率方面表现更好,并在多个数据集上得到了最优的测试准确性表现。
Sep, 2017
本文提出了一种简化的自我注意力(SSAN)层,用于 Transformer 模型的端到端语音识别任务中,以降低模型复杂度和维护良好性能,并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明,我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少,在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低,而且在 20000 小时的大规模任务中,模型失去识别性能。
May, 2020
本文研究将自我关注网络和带增强记忆的自我关注层引入自动语音识别中,提出了一种 DFSMN-SAN 架构来比较两种类型的自我关注层的效果,实验证明该模型在大规模语音识别任务中相较于基准模型有较大幅度的性能提升。
Oct, 2019
我们提出了一种名为 SANNE 的新型无监督嵌入模型,其集中思想是使用转换器自我注意网络来迭代地聚合节点在随机游走中的向量表示,以生成合理的嵌入,不仅适用于现有节点,而且适用于新出现的未见节点。实验结果表明,所提出的 SANNE 在著名的基准数据集上对于节点分类任务获得了最先进的结果。
Jun, 2020