利用稀疏表示技术强化多义词处理能力

May, 2018

利用稀疏表示技术强化多义词处理能力

Robust Handling of Polysemy via Sparse Representations

Abhijit Mahabal, Dan Roth, Sid Mittal

TL;DR使用稀疏分布式表示来表达单词的多个意思，Category Builder 是一个工作系统，可以支持多方面的词汇表示和多重成员资格，对于诸如 “埃及的恒河” 或 “托尔金的伏地魔” 之类的类比问题表现出色。

Abstract

Words are polysemous and multi-faceted, with many shades of meanings. We suggest that sparse distributed representations are more suitable than other, commonly used, (dense) representations to express these multiple facets, and present →

sparse distributed representations category builder set expansion task lexical representations analogy problems

发现论文，激发创造

稀疏过完备词向量表示

提出一种将词向量转换成稀疏（可选二进制）向量的方法，使得词向量更接近于自然语言处理中常用的可解释特征，但这些特征是从原始语料库中自动发现的，并且在基准任务上优于原始向量。

Jun, 2015

生成词义表示的简单高效方法

本文介绍了一种简单的模型，它可以代表多义词的不同含义，有效地区分单词的语义，并保证计算效率。

Dec, 2014

多义性的几何学

本文提出了一种三倍增的方法来进行无监督的多义词建模，其中使用低秩子空间来表示包含目标单词的句子，通过对表示的格拉斯曼几何进行聚类算法对目标单词的不同义项进行消歧辨别，最后基于英文维基百科语料库得出了多个词和词义对的表示，这些算法在标准意义识别和消歧辨别数据集上带来了新的最佳成果。

Oct, 2016

词义的线性代数结构及其在多义词中的应用

本论文提出了一种技术，可以在词嵌入空间中对多义词词义进行线性分解，以及使用稀疏编码恢复指向这些词义的向量，并通过实证研究验证了该技术。

Jan, 2016

基于主题模型的多义词嵌入

该文提出了一种基于主题模型的 skip-gram 方法来学习多原型词嵌入，同时介绍了一种修剪嵌入的方法，用于代表每个主题中每个单词的概率表示，并将我们的嵌入用于展示它们可以强烈地捕获上下文和词汇相似性，并优于各种最先进的实现。

Sep, 2019

采用分层稀疏编码学习单词表现

提出了一种使用启发自单词意义语言学研究的稀疏编码中的分层正则化来学习单词表示的新方法，并展示了一种基于随机近端方法的高效学习算法，用于处理数十亿单词令牌的层次稀疏编码，实验表明该方法在各种基准任务上的表现优于或与最先进的方法相媲美。

Jun, 2014

具有极其丰富的符号意义表示的神经语义解析

当前的开放域神经语义解析器表现出色，但对于它们产生的符号意义表示进行近距离检查后发现存在显著的弱点：有时它们倾向于仅从源文本中复制字符序列以形成符号概念，并根据训练分布中的最常见词义为默认。通过利用词汇本体的层次结构，我们介绍了一种基于概念在分类层次中位置的新颖组合符号表示。该表示提供了更丰富的语义信息和更强的可解释性。我们引入了一种名为 “分类” 的神经语义解析器，以利用这种新的谓词表示系统，并将其与训练在传统意义表示格式上的标准神经语义解析器进行了比较，并使用新的挑战集和评估指标进行评估。我们的实验发现表明，基于更丰富和复杂的意义表示进行训练的 “分类” 模型在性能上略为次于使用标准指标进行评估的传统模型，但在处理词汇表外概念时表现优于传统模型。这个发现对于旨在将数据驱动的分布式含义与基于知识的符号表示相结合的计算语义研究非常鼓舞。

Apr, 2024

大型语言模型中分类和层级概念的几何结构

大型语言模型的表示空间中如何编码语义含义是可解释性中的一个根本问题。本文研究了这一领域的两个基本问题：第一，如何表示类别概念，如 “哺乳动物”、“鸟类”、“爬行动物”、“鱼类” 等；第二，如何编码概念之间的层级关系，例如 “狗” 是 “哺乳动物” 的一种。我们通过扩展线性表示假设来回答这些问题，并发现了一个非常简单的结构：简单的类别概念被表示为单纯形，具有层级关系的概念在某种意义上是正交的，并且（作为结果）复杂的概念被表示为由单纯形的直和构成的多面体，反映了其层级结构。我们使用来自 WordNet 的数据验证了这些理论结果，在 Gemma 大型语言模型上估计了 957 个具有层级关系的概念的表示。

Jun, 2024

去除歧义的语义表示

通过深度语义网络来解决语义表达技术中单一代表多个意思的缺陷，提出了一种高覆盖率、能够准确表示不常见词义的技术，并在六个数据集上取得了最先进的结果。

Aug, 2016

概念的简洁表示

通过基于范畴论的简洁概念表示，可以训练模型从而精确理解概念，并产生不变性属性以及层级分解，以验证每个部分来学习复杂概念或纠正误解。

Mar, 2023