TL;DR该研究针对自动后编辑(APE)中数据稀缺的情况,通过数据增强的方式来生成大规模人工语料库构建人工数据域,以提高模型性能,报告表明高质量的人工语料库与生成的训练数据可以改善模型性能,同时在不同 MT 系统中 APE 的难度不同,模型在语法和语义添加问题上的表现良好,但容易出现实体和语义省略错误。
Abstract
automatic post-editing (APE) aims to reduce manual post-editing efforts by
automatically correcting errors in machine-translated output. Due to the
limited amount of human-annotated training data, data scarcity is one of the
main challenges faced by all APE systems. To alleviate the la
本文提出了一种神经自动后编辑系统,该系统使用两个独立编码器对源句子和机器翻译句子进行编码,并利用共享注意力机制更好地理解两个输入对于后编辑句子生成的贡献,其已在 WMT16 和 WMT17 APE IT domain 英德共享任务的官方数据以及附加的 500K 人工数据上进行了训练和评估,同时提供了更好的可解释性。