Apr, 2023

使用一致性正则化的半监督神经机器翻译技术 —— 面向低资源语言

TL;DR本文介绍一种半监督的方法来解决低资源语言机器翻译的问题,通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量,将交叉熵损失和 KL 散度相结合,特别是通过伪目标句子实现无监督训练,实验证明该方法可以显著提高 NMT 基线性能