COLINGSep, 2022

基于条件掩码语言模型的神经机器翻译语义一致数据增强

TL;DR本文介绍了一种新的神经机器翻译数据增强方法,可以在语言内外强制实现更强的语义一致性。结果表明,条件掩蔽语言模型是一种生成上下文相关单词分布的有效技术,并集成了软词替换的思想,以增强数据多样性,加强语义一致性。该方法在四个规模不同的翻译数据集上进行的实验结果,展示了更真实的数据增强和更好的翻译质量,相对于强和最新的工作,我们的方法一致实现了最佳性能,并相对于基线改进了高达 1.90 BLEU 分数。