探究线性词语类比

ACLOct, 2018

Towards Understanding Linear Word Analogies

Kawin Ethayarajh, David Duvenaud, Graeme Hirst

TL;DR研究发现，使用向量算术操作可以解决单词类比问题，本文提供了 skip-gram 模型中算术运算符对应的非线性嵌入模型的正式解释，证明了线性子结构存在于向量空间中，通过从技术上的角度证明了降低高频词权重的有效性以及欧氏距离在捕捉单词不相似性问题上的信息论解释。

Abstract

A surprising property of word vectors is that word analogies can often be solved with vector arithmetic. However, it is unclear why arithmetic operators correspond to non-linear embedding models such as skip-gram

word vectors vector arithmetic skip-gram with negative sampling linear substructures euclidean distance

发现论文，激发创造

评估向量空间类比模型

本文评估了将平行四边形模型应用于现代单词嵌入的类比关系能够捕捉基于人类关系相似度判断的能力，并发现其在某些语义关系上表现更好，但同时提供了基于向量空间内在几何约束的更深层次局限性证据，对一阶相似性产生的古典结果进行类比。

May, 2017

利用矩阵流形推理单词嵌入中的语言规律

本文介绍了一种基于 Grassmannian 的新方法，旨在通过建模单词集合所围成的子空间来捕获连续词向量表示中的类比关系，该方法利用测地核的修改余弦距离模型捕获跨单词类别的关系特定距离，实验结果表明与以前的方法相比，本方法在类比任务上表现显著改善。

Jul, 2015

类比的解释：走向理解词嵌入

本文通过概率定义新的释义来重新诠释 W2V 生成的词向量中的线性行为，证明了线性关系存在，并确定了差错项。

Jan, 2019

不包含类比测试的类比研究：衡量词嵌入中的规律性

本文通过分解和实证分析经典算数词类比测试，提出了两种新的指标，用于解决标准测试存在的问题，并区分广泛类别内二元词汇之间的相似方向和正确匹配词对之间存在常规变换的配对一致性；结果表明，尽管标准的词类比测试存在缺陷，但一些受欢迎的词嵌入方法仍然编码语言规律。

Oct, 2020

在双曲空间中的 Skip-gram 词向量嵌入

本文介绍了一种在超几何空间中学习自由文本词嵌入的算法，并使用基于超几何距离的目标函数在 word2vec 的 skip-gram 负采样架构中进行。实验结果表明在超几何空间低维度中，超几何词嵌入具有潜在优势，但在一些方面和欧几里得词嵌入没有绝对的优势。具体分析了在曲率空间中类比分析任务的些微差别。

Aug, 2018

语言模型实现简单的 Word2Vec 风格的向量算术

本文研究了语言模型在上下文学习中的机制和解决问题的策略，发现虽然它们规模巨大和复杂，但其实有时候它们会利用简单向量算术的机制编码抽象关系，并且利用前馈网络的简单线性更新算法来完成各种任务，在一定程度上具有可解释性。

May, 2023

词义的线性代数结构及其在多义词中的应用

本论文提出了一种技术，可以在词嵌入空间中对多义词词义进行线性分解，以及使用稀疏编码恢复指向这些词义的向量，并通过实证研究验证了该技术。

Jan, 2016

使用词语类比评估语义空间的问题

本文研究了解决词汇类比问题的 offset 方法，揭示了该方法依赖于余弦相似度和邻域结构，提出了基于向量空间的评估方法的改进措施。

Jun, 2016

快速零样本图像标记

本篇论文研究了图像与单词之间的关系，发现相关的单词向量在特定方向上超过无关的单词向量，依此提出了一种基于线性映射和深层神经网络的快速图像标注模型，其具有良好的性能和鲁棒性，并能够处理此前未见过的标签。

May, 2016

压缩词嵌入

该论文研究了使用词向量空间中的哈希技术压缩向量表达的内部结构对嵌入式表示存储优化的影响，同时探讨了二元分解对于嵌入式表示的可解释性的提高。

Nov, 2015