基于自注意力机制的字符级翻译

ACLApr, 2020

Character-Level Translation with Self-attention

Yingqiang Gao, Nikola I. Nikolov, Yuhuang Hu, Richard H.R. Hahnloser

TL;DR本文研究了自注意力模型在字符级神经机器翻译中的适用性，并测试了标准 Transformer 模型以及一种新颖的变体。我们在 WMT 和 UN 数据集上进行了广泛实验，使用最多三种输入语言（法语，西班牙语和中文）进行双语和多语翻译。我们的变体在字符级别上始终优于标准 Transformer，并收敛更快，并学习更稳健的字符级别对齐。

Abstract

We explore the suitability of self-attention models for character-level neural machine translation. We test the standard →

self-attention models character-level neural machine translation transformer model convolutions

发现论文，激发创造

基于依赖感知自注意力机制的机器翻译增强

本文研究了将句法知识纳入 Transformer 模型的不同方法，并提出一种新的、无需参数的依赖感知自注意机制，能够提高其翻译质量，特别是在长句子和低资源情况下。作者在 WMT 英德、英土和 WAT 英日翻译任务中展示了每种方法的有效性。

Sep, 2019

机器翻译加权变形器网络

本篇论文提出基于注意力机制的神经机器翻译新架构，采用自注意力和前馈神经网络层来避免递归和卷积，但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型，通过修改注意力层架构，更快地提高 BLEU 得分表现，同时在英译德和英译法机器翻译任务中表现最优。

Nov, 2017

基于字符的神经机器翻译

本研究介绍了一种基于字符级别表示的神经机器翻译模型，该模型使用注意力机制实现从字符级别到单词级别的翻译，并具有一定的词形识别与生成能力。

Nov, 2015

基于字符级 Transformer 的神经机器翻译

本文针对机器翻译中常用的子词级神经网络模型提出了基于字符级翻译的 Transformer 模型，实验证明所提出的模型在训练效率和翻译质量方面是优于先前的字符级模型且与子词级模型相当的，代码和模型已经公开发布。

May, 2020

不需显式分段的全字符级神经机器翻译

该研究提出了一个无需分词的神经机器翻译模型，在 WMT'15 数据集上使用多语言字符级编码器和基于字符卷积神经网络的模型，不仅速度快，泛化性能好，而且能够跨多语言实现高质量普适翻译，效果优于子词级编码器。

Oct, 2016

基于字符级神经机器翻译和语言相似度

我们探讨了基于字符级神经机器翻译的 Transformer 架构在不同语言相似度和训练数据集大小上的效果，针对捷克语、克罗地亚语、德语、匈牙利语、斯洛伐克语和西班牙语之间的翻译进行了评估，使用自动 MT 指标，证明了在相似语言之间，字符级输入分割有益；而对于不相关语言，字符级传统 Transformer 基本落后于子词级分割；我们实验证实了通过微调已经训练好的子词级模型可以弥补这一差距的先前研究结论。

Aug, 2023

具有局部约束的源目标自注意力

本论文提出了一种基于 transformer 模型的新型神经机器翻译架构，采用自注意力机制加局部约束对 attention 接受场进行改进，实现了在多个翻译基准数据集上的最新 BLEU 最优结果。

May, 2019

注意力全是你需要的

本文提出一种基于注意力机制的 Transformer 模型，优于使用循环或卷积神经网络的现有机器翻译模型，且可并行训练、训练时间更短，使得 BLEU 评分得以显著提高，并成功将该模型应用于英语句法分析等任务。

Jun, 2017

使用透明化注意力训练更深层的神经机器翻译模型

本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型，我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量，结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。

Aug, 2018

使用深度自注意力进行字符级语言建模

本文通过实验证明，64 层深 (Deep) 的 transformer 模型，通过加入中间网络层和序列位置的辅助损失 (auxiliary losses)，能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体，实现 1.13 和 1.06 的最小比特位 (bit per character)。

Aug, 2018