使用词语类比评估语义空间的问题
本文通过分解和实证分析经典算数词类比测试,提出了两种新的指标,用于解决标准测试存在的问题,并区分广泛类别内二元词汇之间的相似方向和正确匹配词对之间存在常规变换的配对一致性;结果表明,尽管标准的词类比测试存在缺陷,但一些受欢迎的词嵌入方法仍然编码语言规律。
Oct, 2020
本文评估了将平行四边形模型应用于现代单词嵌入的类比关系能够捕捉基于人类关系相似度判断的能力,并发现其在某些语义关系上表现更好,但同时提供了基于向量空间内在几何约束的更深层次局限性证据,对一阶相似性产生的古典结果进行类比。
May, 2017
论文提出” 基于向量空间模型(VSM)的无标注文本学习算法 “,应用于中学生常见 SAT 考试的语义类比题及名词修饰语语义关系分类中,取得了 47% 和 43.2% 的正确率,性能达到当时最高水平。
Aug, 2005
研究发现,使用向量算术操作可以解决单词类比问题,本文提供了 skip-gram 模型中算术运算符对应的非线性嵌入模型的正式解释,证明了线性子结构存在于向量空间中,通过从技术上的角度证明了降低高频词权重的有效性以及欧氏距离在捕捉单词不相似性问题上的信息论解释。
Oct, 2018
本文介绍了一种基于 Grassmannian 的新方法,旨在通过建模单词集合所围成的子空间来捕获连续词向量表示中的类比关系,该方法利用测地核的修改余弦距离模型捕获跨单词类别的关系特定距离,实验结果表明与以前的方法相比,本方法在类比任务上表现显著改善。
Jul, 2015
使用词相似度任务作为词向量内在评估的代理,但没有标准化的词向量外部评估方法。本文探讨了使用词相似度数据集进行词向量评估时存在的问题,并总结已有的解决方案,最后指出这种方法不具可持续性,需要进一步研究词向量的评估方法。
May, 2016
研究表明,基于单词嵌入的相似性度量方法在无监督语义文本相似性(STS)任务中正在与更复杂的深度学习和专家设计的系统轻松竞争。通过将一个单词嵌入视为标量随机变量的例如 300 个观测值,我们避免了传统的几何方法,使用于基本汇集运算和经典相关系数得到的相似性效果很好,胜过许多最近的方法,同时速度更快且实现容易。此外,研究认为通过重新生成核希尔伯特空间之间的相关算子,可以避免汇集运算并直接比较词嵌入集。正如余弦相似性用于比较单个单词向量一样,我们介绍了中心核对齐(CKA)的一种新颖应用,作为平方余弦相似性的集合的自然推广。同样,CKA 非常易于实现,并享有非常强的实证结果。
Oct, 2019