TL;DR本论文研究了 WMD 的几个可能的扩展,并尝试将语料库中单词的频率作为加权因子,以及探索单词向量空间的几何性质。通过在六个文档分类数据集中验证可能的扩展,发现一些提出的扩展在 K 最近邻分类错误方面表现更好。
Abstract
The word mover's distance (WMD) is a popular semantic similarity metric for
two texts. This position paper studies several possible extensions of WMD. We
experiment with the frequency of words in the corpus as a