Mar, 2016

在 ESL 和 TOEFL 数据集中击败学生和向量余弦的技术

TL;DR本文声称,对于在向量空间模型中识别单词相似度最有效的无监督度量之一,即向量余弦来说,它可以被一种完全无监督的度量超越,这种度量评估两个目标单词的最相关语境的交集程度,并根据共享语境在依赖性排名列表中的排名对该交集进行加权。为了证明这一点,我们描述并评估了 APSyn,它是平均准确率的一种变体,独立于采用的参数,其在 ESL 和 TOEFL 测试集上均优于向量余弦和共现。在最佳设置下,APSyn 在 ESL 数据集上达到 0.73 的准确率,在 TOEFL 数据集上达到 0.70 的准确率,因此超越了非英语 US 大学申请人(根据文献报道,其平均为 64.50%)和几种最先进的方法。