利用后验正则化进行神经机器翻译的先验知识整合
本文介绍了一种新的神经翻译模型加入语言模型的先验知识的方法,通过加入正则化项确保神经翻译模型输出分布在语言模型先验下的概率合理,而避免与语言模型的不一致。与先前的工作不同,该方法只在训练时使用语言模型,并不会降低解码速度,实验结果表明该方法适用于小数据量机器翻译任务。
Apr, 2020
本文提出了一种名为 NMT+RNNG 的混合模型,它将循环神经网络语法与基于注意力的神经机器翻译相结合,通过训练鼓励神经机器翻译模型吸收语言先验知识,并在其后进行自主翻译。4 种语言配对的实验表明该模型非常有效。
Feb, 2017
提出了一种基于 Kullback-Leibler 散度规则的神经机器翻译(NMT)正则化方法,并采用联合训练策略,将左到右和右到左 NMT 解码器改进互动方式,从而有效提高了中英文和英德翻译任务的表现。
Aug, 2018
我们提出了一种新的机制来将源信息分成已翻译的过去内容和未翻译的未来内容,并使用两个附加的循环层对其进行建模,从而为神经机器翻译系统提供已翻译和未翻译内容的知识,实验结果表明,该方法显著改善了中英、德英和英德翻译任务的翻译性能,具体来说,该模型在翻译质量和对齐误差率方面优于传统的覆盖模型。
Nov, 2017
本文提出一种利用先前领域知识改进通用生成模型性能的方法,通过引入正则化项,让生成模型的边缘分布遵循预设的特征依赖关系,可嵌入多种生成模型(例如变分自编码器、生成对抗网络)的基于反向传播的学习过程中
Feb, 2019
本文提出了一种同时在表示层和梯度层面上正则化神经机器翻译(NMT)模型的方法,以解决多语言 NMT 在零 - shot 翻译中出现偏离目标语言及低质量翻译的问题,并在 WMT 和 OPUS 数据集上实现了 5.59 和 10.38 BLEU 的性能提升。
Sep, 2021
本文介绍一种半监督的方法来解决低资源语言机器翻译的问题,通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量,将交叉熵损失和 KL 散度相结合,特别是通过伪目标句子实现无监督训练,实验证明该方法可以显著提高 NMT 基线性能
Apr, 2023
本篇论文提出了一种基于局部特征训练的两阶段方法,能够实现大规模预训练神经机器翻译模型的连续学习,以适应新任务,采用这种方法能够在不访问以前的训练数据或引入模型分离的情况下解决之前方法的不足。
Nov, 2022
本研究探讨了神经机器翻译的监督域自适应技术,针对现有模型在大型非领域数据集训练后,如何适应小型领域数据集所出现的过拟合问题。在整个过程中,正则化技术,如 dropout 和 L2 正则化与非领域先验之间的关系得到了深入研究。此外,文章提出了一种新型的正则化技术 ——tuneout,即启发式 dropout。我们将这些技术单独或结合应用于神经机器翻译,以英语 -> 德语、英语 -> 俄语的 IWSLT 数据集为例取得了改进。此外,我们还研究了 NMT 领域中所需的领域内训练数据量,并发现培训数据与 BLEU 分数之间存在对数关系。
Jul, 2017
本文提出通过在 NAT 模型的训练过程中引入两个辅助正则化项来提高解码器的隐藏表示质量,以解决重复和不完整翻译的问题,并在几个基准数据集上进行了广泛实验,表明正则化策略是有效的,可以显著提高 NAT 模型的准确性和效率。
Feb, 2019