Mar, 2019

SART - 鞑靼语相似性、类比和相关性:词向量评估的新基准数据集

TL;DR本篇论文提出了一组新的 Tatar 语评估资源,该语言属于土耳其语系,主要分布在俄罗斯的塔塔尔斯坦共和国,该资源包含用于评估语义模型的相似性和相关性数据集,以及包含类比问题的模型数据集,用于探索语言建模的语义、语法和形态方面。我们使用这些资源对两种语言使用最先进的词嵌入模型进行评估,分析了其性能比较。