基于字符的 Transformer 神经机器翻译

Nov, 2019

基于字符的 Transformer 神经机器翻译

Character-based NMT with Transformer

Rohit Gupta, Laurent Besacier, Marc Dymetman, Matthias Gallé

TL;DR本文研究了字符级别的翻译和基于 Transformer 架构的输入与输出之间的影响，并通过对 EN-DE 的实验发现字符级别 Transformer 模型比其 BPE 模型更具鲁棒性。为了在干净、领域特定的数据中获得可比的 BLEU 分数并缩小与基于 BPE 的模型之间的差距，我们采用已知的技术训练更深层的 Transformer 模型。

Abstract

character-based translation has several appealing advantages, but its performance is in general worse than a carefully tuned BPE baseline. In this paper we study the impact of character-based input and output with the t

character-based translation transformer architecture bleu scores bpe-based models deeper transformer models

发现论文，激发创造

基于字符级 Transformer 的神经机器翻译

本文针对机器翻译中常用的子词级神经网络模型提出了基于字符级翻译的 Transformer 模型，实验证明所提出的模型在训练效率和翻译质量方面是优于先前的字符级模型且与子词级模型相当的，代码和模型已经公开发布。

May, 2020

英爱转换器式 NMT 的人工评估

该研究评估了超参数设置对基于 Transformer 的神经机器翻译在英语 - 爱尔兰语低资源对中的质量的影响。研究中使用了基于 Byte Pair Encoding (BPE) 和 unigram 方法的 SentencePiece 模型。通过修改层数、评估注意力机制中最佳头数、使用不同的正则化技术等变体，发现使用 16k BPE 子词模型优化的 Transformer 模型表现最佳，相较于基线递归神经网络（RNN）模型，BLEU 分数提高了 7.8 个点，与 Google 翻译相比，该翻译引擎实现了显著提升。此外，还通过定量细粒度手动评估，比较了机器翻译系统的表现。使用多维质量度量中的错误分类法（MQM error taxonomy），探讨了基于 RNN 模型和 Transformer 模型生成的错误类型的人类评估。结果表明，表现最佳的 Transformer 系统在准确性和流畅性错误方面与基于 RNN 的模型相比均有显著降低。

Mar, 2024

基于字符的神经机器翻译：容量和压缩的再思考

本论文通过设计深度模型对字符级信息进行序列到序列建模，并且验证了该模型优于传统的基于单词片段的模型，从而为字符级神经机器翻译提供了参考。同时，通过评估多种字符级 NMT 技术，发现它们不能与深层字符基线模型的表现相匹配。最后，我们还在该框架内进行了针对 NMT 的条件计算时间的第一次评估。

Aug, 2018

基于字符级神经机器翻译和语言相似度

我们探讨了基于字符级神经机器翻译的 Transformer 架构在不同语言相似度和训练数据集大小上的效果，针对捷克语、克罗地亚语、德语、匈牙利语、斯洛伐克语和西班牙语之间的翻译进行了评估，使用自动 MT 指标，证明了在相似语言之间，字符级输入分割有益；而对于不相关语言，字符级传统 Transformer 基本落后于子词级分割；我们实验证实了通过微调已经训练好的子词级模型可以弥补这一差距的先前研究结论。

Aug, 2023

基于字符的神经机器翻译

本研究旨在解决神经机器翻译应用于大词汇量和形态丰富语言的挑战，通过使用基于字符的嵌入法，结合卷积层和高速公路网络来替代传统的基于词的表示法，并测试其在注意力机制双向递归神经网络中的应用，结果表明该方法即使在源语言不富含形态学的情况下也能够在德英 WMT 任务中取得高达 3 个 BLEU 分的改进效果。

Mar, 2016

基于字符的神经机器翻译

本研究介绍了一种基于字符级别表示的神经机器翻译模型，该模型使用注意力机制实现从字符级别到单词级别的翻译，并具有一定的词形识别与生成能力。

Nov, 2015

通过微调子词系统实现合理大小的基于字符级别的 Transformer NMT

实现字符级别的 Transformer 架构通常需要非常深的架构，难以训练。本文提出一种通过在模型中将分词与字元结合进行初步训练，然后在字符级别上调整，从而实现不需要分词的神经机器翻译模型的方法，并且展示了这种方法更好地捕捉了语言形态现象和更加健壮，训练的代价相对较小。

Apr, 2020

不需显式分段的全字符级神经机器翻译

该研究提出了一个无需分词的神经机器翻译模型，在 WMT'15 数据集上使用多语言字符级编码器和基于字符卷积神经网络的模型，不仅速度快，泛化性能好，而且能够跨多语言实现高质量普适翻译，效果优于子词级编码器。

Oct, 2016

纯字符级神经机器翻译的理解：以从芬兰语到英语的翻译为例

本文探讨了纯字符级模型在芬兰语到英语机器翻译中的效果，并证明了字符序列中不同位置的字符在学习语言知识方面扮演着不同的角色。通过实验证明，单头的基于字级别的注意力机制会导致 BLEU 分数下降 1.2 分。

Nov, 2020

面向形态丰富语言的字符感知解码器

本文针对神经机器翻译系统忽略词法低层级模式的问题，提出一种字符感知解码器，通过卷积神经网络结构训练，以实现针对语言词法丰富情况下的 MT 系统翻译质量提升。实验结果表明，本文方法在 14 种不同类型的语言翻译中，能够显著提升 BLEU 得分。

Sep, 2018