APE-then-QE: 修正并过滤伪平行语料以用于机器翻译训练数据的生成

Dec, 2023

APE-then-QE: 修正并过滤伪平行语料以用于机器翻译训练数据的生成

APE-then-QE: Correcting then Filtering Pseudo Parallel Corpora for MT Training Data Creation

Akshay Batheja, Sourabh Deoghare, Diptesh Kanojia, Pushpak Bhattacharyya

TL;DR自动后编辑（APE）是自动识别和校正机器翻译（MT）输出中的错误的任务。我们提出了一种修复 - 过滤 - 使用的方法，使用 APE 系统来校正 MT 训练数据的目标端的错误。我们根据使用质量估计（QE）模型计算的质量分数选择原始和校正句子对。通过使用这个过滤后的语料库进行训练，相对于基线模型，我们观察到英语 - 马拉地语和马拉地语 - 英语机器翻译系统性能提升了 5.64 和 9.91 个 BLEU 点。我们的工作不受英语或马拉地语的特征限制；在具备必要的 QE 和 APE 数据的情况下，它是语言对不可知的。

Abstract

automatic post-editing (APE) is the task of automatically identifying and correcting errors in the machine translation (MT) outputs. We propose a repair-filter-use methodology that uses an APE system to correct e

automatic post-editing machine translation quality estimation parallel corpus bleu points

发现论文，激发创造

自动后编辑的实证研究

该研究针对自动后编辑（APE）中数据稀缺的情况，通过数据增强的方式来生成大规模人工语料库构建人工数据域，以提高模型性能，报告表明高质量的人工语料库与生成的训练数据可以改善模型性能，同时在不同 MT 系统中 APE 的难度不同，模型在语法和语义添加问题上的表现良好，但容易出现实体和语义省略错误。

Sep, 2022

自动后编辑高质量机器翻译中句法对称的重要性

本文探讨自动后编辑 (APE) 的问题，提出了一种基于对称自注意和语言学正则化的方法，旨在提高 APE 模型对目标语言的理解能力，并取得了实验结果的显著提升。

May, 2023

MLQE-PE: 多语言质量估计和后编辑数据集

MLQE-PE 为机器翻译质量评估和自动后编辑提供了新数据集，包含 11 种语言对，针对每种语言对的 10000 个翻译提供了人类标签，包括句子级别的直接评估和后编辑努力以及单词级别的好 / 坏标签，同时还提供了后编辑的句子、标题以及用于翻译文本的神经机器翻译模型。

Oct, 2020

少即是多”：“少样本” 质量评估基于语料库过滤提升机器翻译

本文提出了一种基于质量评估的过滤方法，以从伪平行语料库中提取高质量的平行数据，并通过使用过滤后的语料库进行训练，改善了机器翻译系统的性能。该方法在英语 - 马拉地语、中文 - 英语和印地语 - 孟加拉语语言对中表现出了很好的效果，通过迁移学习在仅使用 500 个印地语 - 孟加拉语训练实例的情况下，相比基准模型提高了最多 0.6 个 BLEU 分数。

Jun, 2023

基于分解的神经机器翻译模型集成用于自动后编辑和质量评估

利用多个专门的神经机器翻译系统，将已被证明在词级质量估计中有效的特征作为输入因素，扩展原始源和机器翻译假设的表示，生成自动后编辑的假设，并在单个框架内连接自动后编辑和词级质量估计的最先进方法，进而通过调整实现两个任务的最优表现。

Jun, 2017

关于使用平行数据进行翻译质量评估的研究

本文重点研究了机器翻译的质量估计，通过对比使用不同方向的平行数据在数据增强方面的影响，发现使用原文作为源数据可以带来相对较好的效果。

Dec, 2022

神经自动后编辑系统解释的共享注意机制

本文提出了一种神经自动后编辑系统，该系统使用两个独立编码器对源句子和机器翻译句子进行编码，并利用共享注意力机制更好地理解两个输入对于后编辑句子生成的贡献，其已在 WMT16 和 WMT17 APE IT domain 英德共享任务的官方数据以及附加的 500K 人工数据上进行了训练和评估，同时提供了更好的可解释性。

Jul, 2018

自动后编辑能否改进 NMT？

本研究旨在探讨自动后编辑技术在神经机器翻译系统上的实用性。通过构建英德短语翻译的人工编辑语料库，我们证明了在大规模语料库和人工编辑数据的监督下，最新的神经网络后编辑技术可以显著提高神经机器翻译系统的翻译质量，并挑战了当前领域的理解。

Sep, 2020

自动后编辑的复制学习

该研究提出了一种新的模拟自动后期编辑过程中的复制机制的方法，通过在源句子和系统输出之间交互学习来更好地识别翻译错误，并在 WMT 数据集上的实验中进行验证，表现优于以往最佳结果。

Nov, 2019

利用短语对注入和语料过滤改进机器翻译

本论文表明，短语注入和语料库过滤的组合提高了神经机器翻译 (NMT) 系统的性能。我们从伪平行语料库中提取并增广平行短语和句子，以此训练 NMT 模型。在 Hindi-Marathi、English-Marathi 和 English-Pashto 这 3 种低资源语言对和 6 种翻译方向上，我们观察到了 NMT 系统的改进，并在 FLORES 测试数据上提高了 2.7 BLEU 分，这些 BLEU 分数改进是基于使用整个伪平行语料库和平行语料库增广的模型。

Jan, 2023