基于字符的神经机器翻译
本论文通过设计深度模型对字符级信息进行序列到序列建模,并且验证了该模型优于传统的基于单词片段的模型,从而为字符级神经机器翻译提供了参考。同时,通过评估多种字符级 NMT 技术,发现它们不能与深层字符基线模型的表现相匹配。最后,我们还在该框架内进行了针对 NMT 的条件计算时间的第一次评估。
Aug, 2018
本研究旨在解决神经机器翻译应用于大词汇量和形态丰富语言的挑战,通过使用基于字符的嵌入法,结合卷积层和高速公路网络来替代传统的基于词的表示法,并测试其在注意力机制双向递归神经网络中的应用,结果表明该方法即使在源语言不富含形态学的情况下也能够在德英 WMT 任务中取得高达 3 个 BLEU 分的改进效果。
Mar, 2016
该研究提出了一个无需分词的神经机器翻译模型,在 WMT'15 数据集上使用多语言字符级编码器和基于字符卷积神经网络的模型,不仅速度快,泛化性能好,而且能够跨多语言实现高质量普适翻译,效果优于子词级编码器。
Oct, 2016
本文针对机器翻译中常用的子词级神经网络模型提出了基于字符级翻译的 Transformer 模型,实验证明所提出的模型在训练效率和翻译质量方面是优于先前的字符级模型且与子词级模型相当的,代码和模型已经公开发布。
May, 2020
本文提出了一种用于实现开放词汇神经机器翻译的新型字符 - 词汇结合方案,比基于字符的方案更易于训练且不会产生未知单词,同时在 WMT'15 英译捷克任务中最高 BLEU 分数达到 20.7。
Apr, 2016
本文旨在解决传统编码器 - 解码器架构中的长度固定向量制约所面临的性能瓶颈,并提出一种基于(软)搜索方式的新方法,在英法翻译任务中获得了与基于短语的模型相当的翻译性能,且(软)对齐结果与人类直觉相符。
Sep, 2014
本文探讨了使用字符级别的解码器和子词级别的编码器在神经网络机器翻译中能否生成一个不需要显式分段的字符序列,并使用 WMT'15 平行语料库对四种语言对 - En-Cs、En-De、En-Ru 和 En-Fi 进行了实验,结果表明具有字符级别解码器的模型在所有四种语言对上的表现均优于具有子词级别解码器的模型,在 En-Cs、En-De 和 En-Fi 上的神经网络插件比最先进的非神经机器翻译系统更为优秀,在 En-Ru 上性能相当。
Mar, 2016
本文研究了自注意力模型在字符级神经机器翻译中的适用性,并测试了标准 Transformer 模型以及一种新颖的变体。我们在 WMT 和 UN 数据集上进行了广泛实验,使用最多三种输入语言(法语,西班牙语和中文)进行双语和多语翻译。我们的变体在字符级别上始终优于标准 Transformer,并收敛更快,并学习更稳健的字符级别对齐。
Apr, 2020
本文探讨了纯字符级模型在芬兰语到英语机器翻译中的效果,并证明了字符序列中不同位置的字符在学习语言知识方面扮演着不同的角色。通过实验证明,单头的基于字级别的注意力机制会导致 BLEU 分数下降 1.2 分。
Nov, 2020