本文提出了一种更高效的字符级神经机器翻译解码方法,使用词和字符级别的分层解码结构,能够优化机器翻译性能并学习更长的上下文和语法依赖。
Oct, 2019
本文旨在通过引入字符级的 Seqence-to-Sequence 模型来提高神经机器翻译(NMT)系统的翻译效果和识别实体名词的能力,并在双语训练中借助名称实体翻译模型来提高高质量的实体名词对齐,从而使中英翻译任务的 BLEU 分数比基础 NMT 系统提高了 2.9 个百分点。
Jul, 2016
本文介绍一种利用词对齐算法的数据增强方法来解决神经机器翻译中 out-of-vocabulary 词的翻译问题,并结合字典翻译在 WMT14 英 - 法翻译任务上实现比不使用该方法更高的 BLEU 分数。
Oct, 2014
本文提出将字节对编码(Byte Pair Encoding)引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制,经实验验证在德英和中英翻译任务中,使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。
Jul, 2018
本文对多个使用不同类型划分的翻译模型在中英翻译任务中进行了探究和比较,发现在中文翻译到英文的任务中,使用子词模型效果最好。在英文翻译到中文的任务中,使用混合词形式模型最优。此外,使用 混合_BPE 方法在中文翻译到英文的任务中取得了最佳效果。
Nov, 2017
介绍了一种利用 subword segmentation 的噪声来提高神经机器翻译鲁棒性的正则化方法,主要应用于低资源领域。
Apr, 2018
本文提出一种自动调节神经机器翻译中分词粒度的方法,可以在训练的同时引入新的词汇并优化语言分割,最终达到与最优表现相似的结果,并在训练效率和罕见词汇的表现方面带来了改进。
Oct, 2018
本文针对机器翻译中常用的子词级神经网络模型提出了基于字符级翻译的 Transformer 模型,实验证明所提出的模型在训练效率和翻译质量方面是优于先前的字符级模型且与子词级模型相当的,代码和模型已经公开发布。
May, 2020
本文提出了一种通过分层潜在变量模拟词态变化过程的方法,通过组合两个潜在表示(一个连续的表示和一组(近似)离散特征),逐个字符生成单词,从而使神经机器翻译在三种形态丰富的语言中的精度和资源利用率得到了提高。
我们提出了一种 Semantic Units for Machine Translation (SU4MT) 方法,通过模型化句子中的语义单元,并利用它们来为理解句子提供新的视角。实验结果表明,我们的方法能有效地建模和利用语义单元级别的信息,并优于强基线模型。
Oct, 2023