Dec, 2023

APE-then-QE: 修正并过滤伪平行语料以用于机器翻译训练数据的生成

TL;DR自动后编辑(APE)是自动识别和校正机器翻译(MT)输出中的错误的任务。我们提出了一种修复 - 过滤 - 使用的方法,使用 APE 系统来校正 MT 训练数据的目标端的错误。我们根据使用质量估计(QE)模型计算的质量分数选择原始和校正句子对。通过使用这个过滤后的语料库进行训练,相对于基线模型,我们观察到英语 - 马拉地语和马拉地语 - 英语机器翻译系统性能提升了 5.64 和 9.91 个 BLEU 点。我们的工作不受英语或马拉地语的特征限制;在具备必要的 QE 和 APE 数据的情况下,它是语言对不可知的。