通过微调子词系统实现合理大小的基于字符级别的 Transformer NMT
本文针对机器翻译中常用的子词级神经网络模型提出了基于字符级翻译的 Transformer 模型,实验证明所提出的模型在训练效率和翻译质量方面是优于先前的字符级模型且与子词级模型相当的,代码和模型已经公开发布。
May, 2020
该研究提出了一个无需分词的神经机器翻译模型,在 WMT'15 数据集上使用多语言字符级编码器和基于字符卷积神经网络的模型,不仅速度快,泛化性能好,而且能够跨多语言实现高质量普适翻译,效果优于子词级编码器。
Oct, 2016
我们探讨了基于字符级神经机器翻译的 Transformer 架构在不同语言相似度和训练数据集大小上的效果,针对捷克语、克罗地亚语、德语、匈牙利语、斯洛伐克语和西班牙语之间的翻译进行了评估,使用自动 MT 指标,证明了在相似语言之间,字符级输入分割有益;而对于不相关语言,字符级传统 Transformer 基本落后于子词级分割;我们实验证实了通过微调已经训练好的子词级模型可以弥补这一差距的先前研究结论。
Aug, 2023
本论文通过设计深度模型对字符级信息进行序列到序列建模,并且验证了该模型优于传统的基于单词片段的模型,从而为字符级神经机器翻译提供了参考。同时,通过评估多种字符级 NMT 技术,发现它们不能与深层字符基线模型的表现相匹配。最后,我们还在该框架内进行了针对 NMT 的条件计算时间的第一次评估。
Aug, 2018
通过对多种语言和实验条件下的状态 - of-the-art 字符 - 和子词级预训模型(ByT5 和 mT5)进行了广泛的比较,这项工作展示了前者不仅在翻译方面有效,并且在某些情况下比子词模型表现更好,特别是在训练数据有限的情况下。字符模型唯一的缺点似乎是效率低(至少慢 4 倍的训练和推理时间)。进一步的分析表明,字符模型能够隐含地在词或子词级别上进行翻译,从而抵消了字符级别操作的一个主要潜在弱点。
Feb, 2023
通过文献和实证调查,我们批判性地评估了机器翻译(MT)中基于字符级建模的最新技术发展现状。尽管文献中有证据表明,与子词级方法相比,字符级系统相当可靠,但在竞争性的 WMT 比赛中几乎不被使用。我们的实证研究表明,尽管在自然语言处理的字符级建模方面取得了一些创新,但字符级 MT 系统仍然难以与基于子词的系统相匹配,也没有更好的领域稳健性或更好的形态概括性。但是,我们能够表现出对源端噪声的稳健性,并且在解码时随着 Beam size 的增加,翻译质量不会降低。
Oct, 2021
本文探讨了使用字符级别的解码器和子词级别的编码器在神经网络机器翻译中能否生成一个不需要显式分段的字符序列,并使用 WMT'15 平行语料库对四种语言对 - En-Cs、En-De、En-Ru 和 En-Fi 进行了实验,结果表明具有字符级别解码器的模型在所有四种语言对上的表现均优于具有子词级别解码器的模型,在 En-Cs、En-De 和 En-Fi 上的神经网络插件比最先进的非神经机器翻译系统更为优秀,在 En-Ru 上性能相当。
Mar, 2016
本研究旨在解决神经机器翻译应用于大词汇量和形态丰富语言的挑战,通过使用基于字符的嵌入法,结合卷积层和高速公路网络来替代传统的基于词的表示法,并测试其在注意力机制双向递归神经网络中的应用,结果表明该方法即使在源语言不富含形态学的情况下也能够在德英 WMT 任务中取得高达 3 个 BLEU 分的改进效果。
Mar, 2016
该研究引入了一种新颖的开放词汇语言模型,包含两个层次:词级和序列级,并通过对字符的表示以及全局的序列级别上下文调整,使模型直接处理字符序列,而不是子词或词级别的词汇表,取得了比强基准表现更好的效果,并且具有文本破坏和域移位的鲁棒性。
May, 2023