使用词语类比评估语义空间的问题

Jun, 2016

使用词语类比评估语义空间的问题

Issues in evaluating semantic spaces using word analogies

Tal Linzen

TL;DR本文研究了解决词汇类比问题的 offset 方法，揭示了该方法依赖于余弦相似度和邻域结构，提出了基于向量空间的评估方法的改进措施。

Abstract

The offset method for solving word analogies has become a standard evaluation tool for vector-space semantic models: it is considered desi

offset method word analogies vector-space semantic models cosine similarity neighborhood structure

发现论文，激发创造

不包含类比测试的类比研究：衡量词嵌入中的规律性

本文通过分解和实证分析经典算数词类比测试，提出了两种新的指标，用于解决标准测试存在的问题，并区分广泛类别内二元词汇之间的相似方向和正确匹配词对之间存在常规变换的配对一致性；结果表明，尽管标准的词类比测试存在缺陷，但一些受欢迎的词嵌入方法仍然编码语言规律。

Oct, 2020

评估向量空间类比模型

本文评估了将平行四边形模型应用于现代单词嵌入的类比关系能够捕捉基于人类关系相似度判断的能力，并发现其在某些语义关系上表现更好，但同时提供了基于向量空间内在几何约束的更深层次局限性证据，对一阶相似性产生的古典结果进行类比。

May, 2017

基于语料库的类比和语义关系学习

论文提出” 基于向量空间模型（VSM）的无标注文本学习算法 “，应用于中学生常见 SAT 考试的语义类比题及名词修饰语语义关系分类中，取得了 47% 和 43.2% 的正确率，性能达到当时最高水平。

Aug, 2005

探究线性词语类比

研究发现，使用向量算术操作可以解决单词类比问题，本文提供了 skip-gram 模型中算术运算符对应的非线性嵌入模型的正式解释，证明了线性子结构存在于向量空间中，通过从技术上的角度证明了降低高频词权重的有效性以及欧氏距离在捕捉单词不相似性问题上的信息论解释。

Oct, 2018

基于排名的词向量相似度度量

本文研究了基于词嵌入的语义相似度计算方法，提出了一种基于排名的度量方法，在相似度测量和异常值检测方面表现良好，表明基于排名的度量方法可以提高聚类质量。

May, 2018

利用矩阵流形推理单词嵌入中的语言规律

本文介绍了一种基于 Grassmannian 的新方法，旨在通过建模单词集合所围成的子空间来捕获连续词向量表示中的类比关系，该方法利用测地核的修改余弦距离模型捕获跨单词类别的关系特定距离，实验结果表明与以前的方法相比，本方法在类比任务上表现显著改善。

Jul, 2015

使用词相似性任务评估词嵌入存在的问题

使用词相似度任务作为词向量内在评估的代理，但没有标准化的词向量外部评估方法。本文探讨了使用词相似度数据集进行词向量评估时存在的问题，并总结已有的解决方案，最后指出这种方法不具可持续性，需要进一步研究词向量的评估方法。

May, 2016

词向量集之间的相关性

研究表明，基于单词嵌入的相似性度量方法在无监督语义文本相似性（STS）任务中正在与更复杂的深度学习和专家设计的系统轻松竞争。通过将一个单词嵌入视为标量随机变量的例如 300 个观测值，我们避免了传统的几何方法，使用于基本汇集运算和经典相关系数得到的相似性效果很好，胜过许多最近的方法，同时速度更快且实现容易。此外，研究认为通过重新生成核希尔伯特空间之间的相关算子，可以避免汇集运算并直接比较词嵌入集。正如余弦相似性用于比较单个单词向量一样，我们介绍了中心核对齐（CKA）的一种新颖应用，作为平方余弦相似性的集合的自然推广。同样，CKA 非常易于实现，并享有非常强的实证结果。

Oct, 2019

检测语料库中使用频率发生变化的词语的简单、可解释和稳定的方法

本文提出了一种不使用向量空间对齐，而是考虑每个单词的邻居的新方法，有效地解决了数字人文学和计算社会科学中的文本比较问题。

Dec, 2021

压缩词嵌入

该论文研究了使用词向量空间中的哈希技术压缩向量表达的内部结构对嵌入式表示存储优化的影响，同时探讨了二元分解对于嵌入式表示的可解释性的提高。

Nov, 2015