基于协议的非平行语料库并行词汇和短语学习

Jun, 2016

基于协议的非平行语料库并行词汇和短语学习

Agreement-based Learning of Parallel Lexicons and Phrases from Non-Parallel Corpora

Chunyang Liu, Yang Liu, Huanbo Luan, Maosong Sun, Heng Yu

TL;DR我们介绍了一种基于协议的方法来学习非平行语料库中的平行词汇和短语。我们通过鼓励两个不对称的隐变量翻译模型（即源至目标和目标至源）达成一致，同时在单向模型的词和短语级别定义一致性。我们开发了一个Viterbi EM算法来高效地联合训练这两个单向模型。在汉英数据集上的实验表明，基于协议的学习显著提高了对齐和翻译性能。

Abstract

We introduce an agreement-based approach to learning parallel lexicons and phrases from non-parallel corpora. The basic idea is to encourage two asymmetric latent-variable translation models (i.e., source-to-targ