自动后编辑半监督学习：通过填充带有错误标记的掩码合成数据

Apr, 2022

自动后编辑半监督学习：通过填充带有错误标记的掩码合成数据

Towards Semi-Supervised Learning of Automatic Post-Editing: Data-Synthesis by Infilling Mask with Erroneous Tokens

WonKee Lee, Seong-Hwan Heo, Baikjin Jung, Jong-Hyeok Lee

TL;DR通过使用掩码语言模型来创建包含错误标记的文本的噪声数据合成方法，以及利用受益样本的语料库交错的方法，可以提高半监督学习在自动编辑中的性能。

Abstract

semi-supervised learning that leverages synthetic training data has been widely adopted in the field of automatic post-editing (APE) to overcome the lack of human-annotated training data. In that context,

semi-supervised learning automatic post-editing data-synthesis methods noising-based method corpus interleaving

发现论文，激发创造

自动后编辑的实证研究

该研究针对自动后编辑（APE）中数据稀缺的情况，通过数据增强的方式来生成大规模人工语料库构建人工数据域，以提高模型性能，报告表明高质量的人工语料库与生成的训练数据可以改善模型性能，同时在不同 MT 系统中 APE 的难度不同，模型在语法和语义添加问题上的表现良好，但容易出现实体和语义省略错误。

Sep, 2022

自我监督的自动后编辑数据生成工具

开发了自我监督的数据生成工具，可以用于多种语言对的自动后编辑（APE）数据建设，以支持基于数据的 APE 研究，解决目前由于数据不足而无法进行的语言对研究问题。

Nov, 2021

自动后编辑高质量机器翻译中句法对称的重要性

本文探讨自动后编辑 (APE) 的问题，提出了一种基于对称自注意和语言学正则化的方法，旨在提高 APE 模型对目标语言的理解能力，并取得了实验结果的显著提升。

May, 2023

自动后编辑能否改进 NMT？

本研究旨在探讨自动后编辑技术在神经机器翻译系统上的实用性。通过构建英德短语翻译的人工编辑语料库，我们证明了在大规模语料库和人工编辑数据的监督下，最新的神经网络后编辑技术可以显著提高神经机器翻译系统的翻译质量，并挑战了当前领域的理解。

Sep, 2020

优化的转录错误修正的分词

本文展示了通过使用合成数据来进行训练，可以显著提高纠错模型的性能，并通过多种语言、语音识别系统和知名语音识别数据集对我们的方法进行评估。

Oct, 2023

自动后编辑的复制学习

该研究提出了一种新的模拟自动后期编辑过程中的复制机制的方法，通过在源句子和系统输出之间交互学习来更好地识别翻译错误，并在 WMT 数据集上的实验中进行验证，表现优于以往最佳结果。

Nov, 2019

迭代掩码填充：一种使用掩码语言建模的有效文本增强方法

我们提出了一种利用基于变压器的 BERT 模型的填充掩码特性的新型文本增强方法，该方法在句子中迭代遮盖单词并使用语言模型预测替换它们。我们在各种 NLP 任务上测试了我们提出的方法，并发现它在许多情况下都是有效的。我们将我们的结果与现有的增强方法进行了比较，并实验结果表明我们提出的方法显著提高了性能，尤其是在主题分类数据集上。

Jan, 2024

神经自动后编辑系统解释的共享注意机制

本文提出了一种神经自动后编辑系统，该系统使用两个独立编码器对源句子和机器翻译句子进行编码，并利用共享注意力机制更好地理解两个输入对于后编辑句子生成的贡献，其已在 WMT16 和 WMT17 APE IT domain 英德共享任务的官方数据以及附加的 500K 人工数据上进行了训练和评估，同时提供了更好的可解释性。

Jul, 2018

APE-then-QE: 修正并过滤伪平行语料以用于机器翻译训练数据的生成

自动后编辑（APE）是自动识别和校正机器翻译（MT）输出中的错误的任务。我们提出了一种修复 - 过滤 - 使用的方法，使用 APE 系统来校正 MT 训练数据的目标端的错误。我们根据使用质量估计（QE）模型计算的质量分数选择原始和校正句子对。通过使用这个过滤后的语料库进行训练，相对于基线模型，我们观察到英语 - 马拉地语和马拉地语 - 英语机器翻译系统性能提升了 5.64 和 9.91 个 BLEU 点。我们的工作不受英语或马拉地语的特征限制；在具备必要的 QE 和 APE 数据的情况下，它是语言对不可知的。

Dec, 2023

自动后编辑中的术语限制

本文提出了自回归模型和非自回归模型用于词汇约束的自适应编辑，实验表明可保留 95% 的术语并提高英德基准翻译质量；虽然应用于词汇约束 MT 输出，但模型学习不会系统地复制约束，因此提出并使用简单的数据增强技术以提高性能和鲁棒性。

Oct, 2020