本文提出了一种新颖的方法,在神经机器翻译中运行时注入自定义术语。作者通过训练神经机器翻译系统学习如何在输入时使用自定义术语,并比较实验证明这种方法不仅更有效,而且与自由约束解码一样快。
Jun, 2019
本文提出了一种在神经机器翻译中加入词汇约束的简单有效算法,该算法可以在推理时注入术语约束,而不影响解码速度,并且无需修改训练流程,使用自定义字典即可运行,实验结果表明,我们的方法在英德 WMT 数据集上可以提高基线和之前方法的翻译质量。
Apr, 2020
本文提出了一种新的框架,将用户提供的限制条件作为外部记忆存储,并以柔性方式进行处理,从而解决在现实世界中限制条件可能存在的问题,实验结果表明,我们的方法能够在处理嘈杂的限制条件时取得相当大的 BLEU 收益,这些结果使我们能够将所提出的方法应用于不需要用户帮助生成限制条件的新场景中并证明了该方法确实能够提高自动生成的约束下的翻译质量。
Aug, 2019
本文提出了一种基于模板的方法,通过重新排列约束和非约束 token 的生成,实现高质量和高匹配精度的翻译结果,同时推断速度与非约束 NMT 模型相当,不需要对模型架构和解码算法作任何更改。实验结果表明,所提出的模板方法在词汇和结构约束翻译任务中优于几个代表性的基线。
May, 2022
该研究提出了一种直接将词汇约束集成到神经机器翻译模型中的方法,通过将词汇约束向量化为连续的键和值,并利用 NMT 模型的注意力模块来表征词汇约束对,并在四种语言对上表明了该方法的优越性。
Mar, 2022
本研究描述了基于有限状态机和多堆栈解码的受约束神经机器翻译解码方法,支持目标端约束以及对应对齐输入文本跨度的约束条件,在多个翻译任务上表现出较好的性能,通过注意力受约束解码的方式减少用户约束翻译时的错置和重复。
May, 2018
本文探讨了英文到捷克语神经机器翻译中的负面词汇限制。我们比较了基于修改解码过程或训练数据的各种方法,并在改写和基于反馈的翻译改进两项任务上进行了对比。我们还研究了这些方法在多大程度上 “回避” 了向模型提供的限制(通常以字典形式呈现),通过产生给定限制的不同的表面形式来绕过约束。我们提出了一种通过训练受到词干化负面约束的方法,以抵消模型诱导单词的多种表面形式的能力,从而改善了限制效果,尽管问题在许多情况下仍然存在。
Aug, 2023
在机器翻译的下游应用中,术语的正确性非常重要,通过将术语约束注入翻译系统可以实现。本研究采用一种翻译后再优化的方法,可以实现跨领域且需要较少手动操作。我们通过使用从词对齐中获得的伪术语翻译来注释随机源词,首先训练一个术语感知模型。此外,我们还探索了两种后处理方法。第一,我们使用对齐过程来发现是否违反了术语约束,如果是,则使用负面约束对违反术语的词进行重新解码。或者,我们利用大型语言模型通过提供术语约束来优化假设。结果表明,我们的术语感知模型能够有效地学习并整合术语,而大型语言模型优化过程可以进一步提高术语的召回率。
Oct, 2023
本文提出了自回归模型和非自回归模型用于词汇约束的自适应编辑,实验表明可保留 95% 的术语并提高英德基准翻译质量;虽然应用于词汇约束 MT 输出,但模型学习不会系统地复制约束,因此提出并使用简单的数据增强技术以提高性能和鲁棒性。
Oct, 2020
本文提出了一种简单有效的训练策略,通过应用掩蔽跨度预测模型, 实现了对两种语言的三个特定领域语料库在术语级和句子级翻译方面的持续改进,以解决神经机器翻译系统术语翻译的实用性和可靠性问题。
May, 2021