自动后编辑中的术语限制
在机器翻译的下游应用中,术语的正确性非常重要,通过将术语约束注入翻译系统可以实现。本研究采用一种翻译后再优化的方法,可以实现跨领域且需要较少手动操作。我们通过使用从词对齐中获得的伪术语翻译来注释随机源词,首先训练一个术语感知模型。此外,我们还探索了两种后处理方法。第一,我们使用对齐过程来发现是否违反了术语约束,如果是,则使用负面约束对违反术语的词进行重新解码。或者,我们利用大型语言模型通过提供术语约束来优化假设。结果表明,我们的术语感知模型能够有效地学习并整合术语,而大型语言模型优化过程可以进一步提高术语的召回率。
Oct, 2023
本文提出了一种新颖的方法,在神经机器翻译中运行时注入自定义术语。作者通过训练神经机器翻译系统学习如何在输入时使用自定义术语,并比较实验证明这种方法不仅更有效,而且与自由约束解码一样快。
Jun, 2019
本文提出了一种新的方法,通过训练步骤来鼓励神经机器翻译满足词汇约束,其主要包括训练数据扩充、约束词汇掩码和交叉熵损失函数修改三个方面,实验表明该方法在 BLEU 分数和生成约束词汇的数量方面均优于其他算法。
Jun, 2021
本文提出了一种在神经机器翻译中加入词汇约束的简单有效算法,该算法可以在推理时注入术语约束,而不影响解码速度,并且无需修改训练流程,使用自定义字典即可运行,实验结果表明,我们的方法在英德 WMT 数据集上可以提高基线和之前方法的翻译质量。
Apr, 2020
本文探讨自动后编辑 (APE) 的问题,提出了一种基于对称自注意和语言学正则化的方法,旨在提高 APE 模型对目标语言的理解能力,并取得了实验结果的显著提升。
May, 2023
该研究针对自动后编辑(APE)中数据稀缺的情况,通过数据增强的方式来生成大规模人工语料库构建人工数据域,以提高模型性能,报告表明高质量的人工语料库与生成的训练数据可以改善模型性能,同时在不同 MT 系统中 APE 的难度不同,模型在语法和语义添加问题上的表现良好,但容易出现实体和语义省略错误。
Sep, 2022
本文提出了一种新的框架,将用户提供的限制条件作为外部记忆存储,并以柔性方式进行处理,从而解决在现实世界中限制条件可能存在的问题,实验结果表明,我们的方法能够在处理嘈杂的限制条件时取得相当大的 BLEU 收益,这些结果使我们能够将所提出的方法应用于不需要用户帮助生成限制条件的新场景中并证明了该方法确实能够提高自动生成的约束下的翻译质量。
Aug, 2019
本研究旨在探讨自动后编辑技术在神经机器翻译系统上的实用性。通过构建英德短语翻译的人工编辑语料库,我们证明了在大规模语料库和人工编辑数据的监督下,最新的神经网络后编辑技术可以显著提高神经机器翻译系统的翻译质量,并挑战了当前领域的理解。
Sep, 2020
本研究描述了基于有限状态机和多堆栈解码的受约束神经机器翻译解码方法,支持目标端约束以及对应对齐输入文本跨度的约束条件,在多个翻译任务上表现出较好的性能,通过注意力受约束解码的方式减少用户约束翻译时的错置和重复。
May, 2018
该研究探讨了非自回归翻译方法中因最近度高而导致的限制条件处理不良的问题,并提出一种基于 source-side context 的插件算法,即 Aligned Constrained Training,来提高翻译品质,尤其针对一些不常见的限制条件。
Apr, 2022