Jun, 2019

COS960:960 个中文词语相似度数据集

TL;DR本文提出了一个基于中文词汇的数据集 COS960,用于测试两个及以上由两个以上语素构成的词汇的相似度。我们详细描述了数据集的构建过程和标注过程,并对一系列词嵌入模型进行了测试。