神经机器翻译的短语级主动学习

Jun, 2021

Phrase-level Active Learning for Neural Machine Translation

Junjie Hu, Graham Neubig

TL;DR本文拟通过选择在新领域非标记数据中的全句和短语，将其路由至人类翻译，解决神经机器翻译在领域转移方面的限制，从而在德语 - 英语翻译任务上，相比于不确定性句子选择方法，实现了一定程度的改进。

Abstract

neural machine translation (NMT) is sensitive to domain shift. In this paper, we address this problem in an active learning setting where

neural machine translation active learning domain shift uncertainty scores phrase-based machine translation

发现论文，激发创造

神经机器翻译的主动学习

本文使用 Joey NMT 工具包中的 Active Learning 技术，通过两种基于模型的获取函数 (BM, FTM, ALLCM, 和 ALMSM)，研究了英语到印地语的神经机器翻译。本文的结果表明，Active Learning 技术能够使模型更早地达到收敛并提高整个翻译系统的质量，其中 ALLCM 和 ALMSM 两种模型取得了最好的 BLEU 分数。

Dec, 2022

利用基于短语的模型在混合搜索中进行神经机器翻译

本文介绍了一种混合搜索的关注机制神经机器翻译模型，该模型使用机器翻译模型和短语级翻译概率等特征来实现目标短语的波束搜索，结果显示与强 NMT 基准模型相比，使用短语模型搜索可以将机器翻译质量提高达到 2.3% 的 BLEU 绝对值的效果。

Aug, 2017

神经机器翻译中词组翻译

本文提出了一种方法将基于统计的短语机器翻译方法中存储的目标短语与神经机器翻译模型的编码器 - 解码器结构相结合，其中短语记忆被动态地生成，提供上下文信息，以进行短语翻译，实现了中英文翻译的显著提升。

Aug, 2017

神经网络与基于短语的机器翻译质量比较：一个案例研究

本文分析了神经网络机器翻译（NMT）与基于短语的机器翻译（PBMT）在英语 - 德语翻译数据集上的表现，从专业翻译的高质量后编辑结果中发现神经网络机器翻译在表述动词重新排序等语言现象时具有更好的建模能力，但仍有需要改进的方面。

Aug, 2016

数据流交互神经机器翻译的主动学习

本文探讨了使用主动学习技术对无限数据流进行交互式神经机器翻译的应用，并提出了两种选择样本的新方法。我们的实验表明，将主动学习技术集成到翻译系统中可在增加翻译质量的同时降低所需的人力工作量，并使人力工作量达到一定的翻译质量平衡。此外，我们的神经系统表现明显优于传统方法。

Jul, 2018

低资源神经机器翻译的高性价比训练

提出了一种利用自监督学习和小规模词典来初始化神经机器翻译（NMT）模型，在初始化后使用主动学习策略提高低资源条件下（如稀缺语言）翻译模型性能的方法，并提出了一种基于领域适应的新型主动学习策略。除此之外，我们还表明，使用这种初始化方法和主动学习策略可相比于传统方法提高最多 13 个 BLEU 点。

Jan, 2022

基于短语和神经网络的无监督机器翻译

该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型，一种是神经模型，一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语基准测试上，这些模型分别获得 28.1 和 25.2 BLEU 分数，比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。

Apr, 2018

神经机器翻译的快速领域适应

本文介绍了一种适应新领域的神经机器翻译（NMT）系统，并展示了在两种语言对上，适应方法相比于常用方法在自动和人工评估测量标准下的显著性提升，而一般领域性能仅略有下降，适应过程快速且不需要重新训练 NMT 模型。

Dec, 2016

神经机器翻译的预翻译

使用词汇短语转换（phrase-based machine translation）方法预处理输入，进而提升神经机器翻译（NMT）的翻译质量，在英德翻译任务中，使用该方法的性能跃升 2 个 BLEU 分数，同时分析了初始系统质量对最终结果的影响。

Oct, 2016

低资源语言的神经机器翻译

本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序，在低资源语言中使用神经机器翻译 (NMT) 模型，产生仅使用 7 万个训练数据令人满意的翻译结果。

Aug, 2017