May, 2019

一个大规模的全文科学文章平行语料库

TL;DR本文提出利用Scielo数据库建立了一个包含英语、葡萄牙语和西班牙语的多语种平行语料库,使用Hunalign算法对句子进行自动对齐,并用Moses对每种语言对进行了翻译,证明该语料库在科学文章中的机器翻译方面表现优异,同时还提供了包含元数据的TMX格式免费使用。