注意力全是你需要的
本篇论文提出基于注意力机制的神经机器翻译新架构,采用自注意力和前馈神经网络层来避免递归和卷积,但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型,通过修改注意力层架构,更快地提高 BLEU 得分表现,同时在英译德和英译法机器翻译任务中表现最优。
Nov, 2017
本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型,我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量,结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。
Aug, 2018
研究表明,Transformer 模型虽然仅基于注意力机制,但缺乏循环机制限制了其翻译能力的提高,本文提出使用一个额外的循环编码器来直接建模循环,并引入一种新的注意力循环网络来结合注意力和循环网络的优点,在 WMT14 英汉和 WMT17 中英机器翻译任务中取得了良好的表现,研究同时发现通过一个单循环层将源序列和目标序列相连可以显著提高模型性能。
Apr, 2019
本论文提出了一种基于 transformer 模型的新型神经机器翻译架构,采用自注意力机制加局部约束对 attention 接受场进行改进,实现了在多个翻译基准数据集上的最新 BLEU 最优结果。
May, 2019
我们提出一种递归编码器 - 解码器深度神经网络架构,直接将一种语言中的语音转换为另一种语言中的文本,通过多任务训练序列到序列的语音翻译和识别模型通过共享编码器网络来提高性能。
Mar, 2017
本文研究了自注意力模型在字符级神经机器翻译中的适用性,并测试了标准 Transformer 模型以及一种新颖的变体。我们在 WMT 和 UN 数据集上进行了广泛实验,使用最多三种输入语言(法语,西班牙语和中文)进行双语和多语翻译。我们的变体在字符级别上始终优于标准 Transformer,并收敛更快,并学习更稳健的字符级别对齐。
Apr, 2020
该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法,可以在不降低翻译质量的情况下,在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速,并将参数数量减少 25%。
Oct, 2020
最近关于文本到语音合成(TTS)的研究表明,使用语言模型驱动的 TTS 展示了卓越的能力,能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器,并引入专门的交叉关注机制以减少重复和跳跃问题。结果,我们的架构能够在长音频样本上高效训练,并在相同规模的基准模型上实现最先进的零样本声音克隆。
Jun, 2024
本文研究了使用 Transformer 网络来实现端到端语音识别,提出使用 VGGNet 结合因果卷积来降低计算复杂度,同时使用截断的自注意力机制来实现流式处理。在公共数据集 LibriSpeech 上进行实验,该方法相比于基于 LSTM/BLSTM 的神经输入转换器,获得了更好的识别效果,并实现了流式处理。
Oct, 2019
本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题,在效率和性能方面实现了 state-of-the-art 表现。
Sep, 2018