多义性的几何学

Oct, 2016

Geometry of Polysemy

Jiaqi Mu, Suma Bhat, Pramod Viswanath

TL;DR本文提出了一种三倍增的方法来进行无监督的多义词建模，其中使用低秩子空间来表示包含目标单词的句子，通过对表示的格拉斯曼几何进行聚类算法对目标单词的不同义项进行消歧辨别，最后基于英文维基百科语料库得出了多个词和词义对的表示，这些算法在标准意义识别和消歧辨别数据集上带来了新的最佳成果。

Abstract

Vector representations of words have heralded a transformational approach to classical problems in NLP; the most popular example is word2vec. However, a single vector does not suffice to model the polysemous nature of many (frequent) words, i.e., words with multiple meanings. In this p

word2vec polysemy modeling unsupervised learning sense induction disambiguation

发现论文，激发创造

基于多分辨率上下文嵌入网络的无监督词汇多义数量化

本文提出了一种基于上下文嵌入空间中的简单几何形式的新颖方法来评估多义性，该方法是完全无监督和纯数据驱动的，能够较好地反映来自 WordNet、OntoNotes、Oxford 和维基百科等 6 种不同标准度量方法的排名，并能对人工排名之间的相关性进行可视化和分析。同时，该方法的一个有价值的附带产品是在不增加成本的情况下进行不同词义的样本句子抽取。最后，完全无监督的本方法使其适用于任何语言。

Mar, 2020

基于主题模型的多义词嵌入

该文提出了一种基于主题模型的 skip-gram 方法来学习多原型词嵌入，同时介绍了一种修剪嵌入的方法，用于代表每个主题中每个单词的概率表示，并将我们的嵌入用于展示它们可以强烈地捕获上下文和词汇相似性，并优于各种最先进的实现。

Sep, 2019

词义的线性代数结构及其在多义词中的应用

本论文提出了一种技术，可以在词嵌入空间中对多义词词义进行线性分解，以及使用稀疏编码恢复指向这些词义的向量，并通过实证研究验证了该技术。

Jan, 2016

通过语境化语言模型诱导概念：从词义到更多

通过本文，我们引入了概念归纳这个非监督任务，从数据中学习一组定义概念的词语软聚类，该任务概括了词义归纳的任务。我们提出了一种双层方法来进行概念归纳，充分利用了本地词元为中心和全局跨词库视角来引导概念的生成。我们在 SemCor 的注释数据上评估所得到的聚类，并获得了良好的性能（BCubed F1 大于 0.60）。我们发现在我们的设置中，本地和全局层次相互有益于概念和词义的生成。最后，我们创建了表示我们引入的概念的静态嵌入，并在上下文任务中使用它们，取得了与现有技术相媲美的性能。

Jun, 2024

从词到义项嵌入：对意义向量表示的调查

此研究综述了分布式语义表示的理论背景，介绍了从单词级别向更精细的词义级别转化的方法，并提供了对两种主要分支进行的广泛技术概述；最终，对其重要方面进行了分析与评估。

May, 2018

生成词义表示的简单高效方法

本文介绍了一种简单的模型，它可以代表多义词的不同含义，有效地区分单词的语义，并保证计算效率。

Dec, 2014

xSense: 学习分离词义的稀疏表示和文本定义，实现可解释的词义网络

本文研究了词向量的解释问题，提出了一种算法可通过上下文信息和目标词语推断其意义，进而利用循环神经网络生成该词汇的定义，实现对词向量的直接解释。同时，作者提出了一个高质量的词汇上下文 - 定义数据集，用于词义消歧与定义建模。经实验测试，该方法在 BLEU 评分和人工评估测试中表现出卓越的性能。

Sep, 2018

无监督映射实现跨主题分布语义表示

本文提出了一种基于不同主题学习单词的多个分布式表示的分布式语义模型，该模型通过不同主题训练不同的 DSM，然后将每个基于主题的 DSM 对齐到一个公共向量空间，实现了最先进的上下文词语相似性任务，并且在 NLP 下游任务中表现出比单一原型模型更好的性能。

Apr, 2019

单个向量足够吗？探索网络嵌入中的节点多义性

本文提出了针对节点的多方面嵌入多义词法以模拟其多重属性，包括映射每个节点的每个属性嵌入向量和保持节点和属性之间关联度。

May, 2019

一个词对应一个表达形式 - 是否对组合有意义？

本文考察了是否需要先验消除词义歧义，或者词在上下文中可以通过组合来消除歧义。我们评估了现成的单向量和多感知向量模型在基准短语相似性任务和词义判别的新任务中的表现。我们发现，单向量模型的性能比多感知向量模型好，尽管其组成单元表示可能不太规整。此外，我们的研究结果表明，像点对点加法这样的简单组合函数能够从单一向量模型中很好地恢复感官相关信息。

Feb, 2017