EMNLPNov, 2019

CCAligned:大规模跨语言网页文档对集合

TL;DR利用 URL 标签指导对网络文章进行跨语言文档对齐,构建了一个大规模的网络文档数据集,使用该数据集通过基线模型进行文本内容的对齐,最终通过挖掘平行语句和测量基于挖掘数据训练的模型的机器翻译质量来证明了数据集的价值,旨在促进跨语言 NLP 研究的发展。