May, 2018

八种语言多语言文档分类语料库

TL;DR本篇研究提出了一种新的 Reuters 子语料库,其针对 8 种语言具有平衡的类先验分布,旨在通过使用多语言词向量和句子嵌入来提供跨语言文档分类的基线,并促进该重要领域的研究。