自动后编辑的实证研究

Sep, 2022

An Empirical Study of Automatic Post-Editing

Xu Zhang, Xiaojun Wan

TL;DR该研究针对自动后编辑（APE）中数据稀缺的情况，通过数据增强的方式来生成大规模人工语料库构建人工数据域，以提高模型性能，报告表明高质量的人工语料库与生成的训练数据可以改善模型性能，同时在不同 MT 系统中 APE 的难度不同，模型在语法和语义添加问题上的表现良好，但容易出现实体和语义省略错误。

Abstract

automatic post-editing (APE) aims to reduce manual post-editing efforts by automatically correcting errors in machine-translated output. Due to the limited amount of human-annotated training data, data scarcity is one of the main challenges faced by all APE systems. To alleviate the la

automatic post-editing data augmentation machine translation artificial corpora model performance

发现论文，激发创造

自动后编辑能否改进 NMT？

本研究旨在探讨自动后编辑技术在神经机器翻译系统上的实用性。通过构建英德短语翻译的人工编辑语料库，我们证明了在大规模语料库和人工编辑数据的监督下，最新的神经网络后编辑技术可以显著提高神经机器翻译系统的翻译质量，并挑战了当前领域的理解。

Sep, 2020

自动后编辑高质量机器翻译中句法对称的重要性

本文探讨自动后编辑 (APE) 的问题，提出了一种基于对称自注意和语言学正则化的方法，旨在提高 APE 模型对目标语言的理解能力，并取得了实验结果的显著提升。

May, 2023

自我监督的自动后编辑数据生成工具

开发了自我监督的数据生成工具，可以用于多种语言对的自动后编辑（APE）数据建设，以支持基于数据的 APE 研究，解决目前由于数据不足而无法进行的语言对研究问题。

Nov, 2021

自动后编辑的复制学习

该研究提出了一种新的模拟自动后期编辑过程中的复制机制的方法，通过在源句子和系统输出之间交互学习来更好地识别翻译错误，并在 WMT 数据集上的实验中进行验证，表现优于以往最佳结果。

Nov, 2019

自动后编辑半监督学习：通过填充带有错误标记的掩码合成数据

通过使用掩码语言模型来创建包含错误标记的文本的噪声数据合成方法，以及利用受益样本的语料库交错的方法，可以提高半监督学习在自动编辑中的性能。

Apr, 2022

神经自动后编辑系统解释的共享注意机制

本文提出了一种神经自动后编辑系统，该系统使用两个独立编码器对源句子和机器翻译句子进行编码，并利用共享注意力机制更好地理解两个输入对于后编辑句子生成的贡献，其已在 WMT16 和 WMT17 APE IT domain 英德共享任务的官方数据以及附加的 500K 人工数据上进行了训练和评估，同时提供了更好的可解释性。

Jul, 2018

APE-then-QE: 修正并过滤伪平行语料以用于机器翻译训练数据的生成

自动后编辑（APE）是自动识别和校正机器翻译（MT）输出中的错误的任务。我们提出了一种修复 - 过滤 - 使用的方法，使用 APE 系统来校正 MT 训练数据的目标端的错误。我们根据使用质量估计（QE）模型计算的质量分数选择原始和校正句子对。通过使用这个过滤后的语料库进行训练，相对于基线模型，我们观察到英语 - 马拉地语和马拉地语 - 英语机器翻译系统性能提升了 5.64 和 9.91 个 BLEU 点。我们的工作不受英语或马拉地语的特征限制；在具备必要的 QE 和 APE 数据的情况下，它是语言对不可知的。

Dec, 2023

Netmarble AI Center WMT21 自动后编辑共享任务提交

本文介绍了 Netmarble 在 WMT21 自动后处理 (APE) 共享任务中的提交，旨在通过多种手段来改进机器翻译的质量，并通过实验证明其有效性。

Sep, 2021

PePe: 利用用户生成的后编辑进行个性化后编辑模型

本文介绍一种个性化自动后编辑框架来解决机器翻译中反映个人喜好的挑战，其使用鉴别器模块和用户特定参数的模型，在四种不同指标（BLEU、TER、YiSi-1 和人类评估）上优于基线模型。

Sep, 2022

自动后编辑中的术语限制

本文提出了自回归模型和非自回归模型用于词汇约束的自适应编辑，实验表明可保留 95% 的术语并提高英德基准翻译质量；虽然应用于词汇约束 MT 输出，但模型学习不会系统地复制约束，因此提出并使用简单的数据增强技术以提高性能和鲁棒性。

Oct, 2020