Jul, 2020

宣布推出超过 20 亿单词的 CzEng 2.0 平行语料库

TL;DR本文介绍了一个新的 Czech-English 双语平行语料库 CzEng 2.0,其中包含超过 20 亿个单词,包含文档级信息,并使用多种技术进行了过滤以降低噪声量,此外还包含新的真实和高质量的合成平行数据。CzEng 可供研究和教育目的免费使用。