Transformer 模型的轻松注意力
本论文提出了一种基于 transformer 模型的新型神经机器翻译架构,采用自注意力机制加局部约束对 attention 接受场进行改进,实现了在多个翻译基准数据集上的最新 BLEU 最优结果。
May, 2019
本文提出一种利用简单变换将外部知识纳入注意机制来使 NLI 模型更加稳健的方法,将其应用于 Transformer 编码器和可分解模型中,结果表明该方法可以显著提高它们的稳健性。并且,在与 BERT 预训练相结合时,在对抗 SNLI 数据集上实现了人类水平的性能。
Aug, 2019
该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术,该方法利用辅助损失函数引导注意力头符合自注意力特征,并可以适用于不同的预训练目标,实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好,在低资源环境中取得了业界领先结果。
Oct, 2020
本文提出一种基于注意力机制的 Transformer 模型,优于使用循环或卷积神经网络的现有机器翻译模型,且可并行训练、训练时间更短,使得 BLEU 评分得以显著提高,并成功将该模型应用于英语句法分析等任务。
Jun, 2017
本篇论文提出基于注意力机制的神经机器翻译新架构,采用自注意力和前馈神经网络层来避免递归和卷积,但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型,通过修改注意力层架构,更快地提高 BLEU 得分表现,同时在英译德和英译法机器翻译任务中表现最优。
Nov, 2017
本文提出一种基于共享注意力权重和隐藏状态重用的快速、轻量级的注意力模型,用于加速 Transformer 机器翻译系统,在十项 WMT 和 NIST OpenMT 任务上实现了平均 1.3 倍的速度提升(几乎不降低 BLEU)和与 Aan 模型的 1.8 倍加速(比没有使用注意力缓存的基线高出 16 倍)。
Jun, 2019
本文提出基于模块化线性化注意力(MLA)的自然语言处理技术,通过结合多种高效的注意力机制,并验证其在自回归任务上显著提升了推理质量和效率。
Apr, 2023
本文研究了基于深度自回归 Transformer 模型在语言建模和语音识别中的应用,探索了配置 Transformer 模型进行语言建模的方法和深度 Transformer 语言模型是否需要位置编码,证明了深度 Transformer 语言模型可以自动利用序列中的位置信息,并能在语音识别模型中得到应用。
May, 2019
提出一种基于 Transformer 架构的简单模型扩展,利用其隐藏表示,仅限于对编码器信息进行注意以预测下一个单词,进一步介绍了一种新的对齐推断过程,直接将目标词的注意力激活率优化为对齐结果,这种对齐方法在两个公开数据集上明显优于 naive 方法,并且与 Giza++ 相当。
Jan, 2019
通过引入一个软正则化器来优化自注意力机制的计算,新提出的 LeOPArd 位串行体系结构可以在不损害平均精度的情况下提高计算速度和降低能源消耗。
Apr, 2022