Nov, 2017

从可比语料库中提取英波斯平行语料库

TL;DR使用双向方法从英语和波斯文档的维基百科中提取平行句子,使用机器翻译系统将波斯文翻译成英文,反之亦然,然后使用 IR 系统测量翻译后句子的相似度,并将提取的句子加入现有 SMT 系统的训练数据,以改善翻译质量。提出的方法略优于单向方法。提取的语料库包含约 200,000 个句子,已按其相似度由 IR 系统计算排序,并可在 Web 上免费访问。