Jan, 2018

WiLI 基准数据集用于书面语言鉴别

TL;DR本篇论文介绍了 WiLI-2018 基准数据集,它是一个用于单语文本识别的公开免费数据集,包含来自维基百科的 1000 个段落,涵盖了 235 种语言,为分类数据集,用于确定未知主导语言的段落所属的语言。