BriefGPT.xyz
May, 2019
一个大规模的全文科学文章平行语料库
A Large Parallel Corpus of Full-Text Scientific Articles
HTML
PDF
Felipe Soares, Viviane Pereira Moreira, Karin Becker
TL;DR
本文提出利用Scielo数据库建立了一个包含英语、葡萄牙语和西班牙语的多语种平行语料库,使用Hunalign算法对句子进行自动对齐,并用Moses对每种语言对进行了翻译,证明该语料库在科学文章中的机器翻译方面表现优异,同时还提供了包含元数据的TMX格式免费使用。
Abstract
The
scielo
database is an important source of scientific information in Latin America, containing articles from several research domains. A striking characteristic of
scielo
is that many of its full-text contents
→