Jun, 2016

基于协议的非平行语料库并行词汇和短语学习

TL;DR我们介绍了一种基于协议的方法来学习非平行语料库中的平行词汇和短语。我们通过鼓励两个不对称的隐变量翻译模型(即源至目标和目标至源)达成一致,同时在单向模型的词和短语级别定义一致性。我们开发了一个Viterbi EM算法来高效地联合训练这两个单向模型。在汉英数据集上的实验表明,基于协议的学习显著提高了对齐和翻译性能。