利用稀疏表示技术强化多义词处理能力
提出一种将词向量转换成稀疏(可选二进制)向量的方法,使得词向量更接近于自然语言处理中常用的可解释特征,但这些特征是从原始语料库中自动发现的,并且在基准任务上优于原始向量。
Jun, 2015
本文提出了一种三倍增的方法来进行无监督的多义词建模,其中使用低秩子空间来表示包含目标单词的句子,通过对表示的格拉斯曼几何进行聚类算法对目标单词的不同义项进行消歧辨别,最后基于英文维基百科语料库得出了多个词和词义对的表示,这些算法在标准意义识别和消歧辨别数据集上带来了新的最佳成果。
Oct, 2016
该文提出了一种基于主题模型的 skip-gram 方法来学习多原型词嵌入,同时介绍了一种修剪嵌入的方法,用于代表每个主题中每个单词的概率表示, 并将我们的嵌入用于展示它们可以强烈地捕获上下文和词汇相似性,并优于各种最先进的实现。
Sep, 2019
提出了一种使用启发自单词意义语言学研究的稀疏编码中的分层正则化来学习单词表示的新方法,并展示了一种基于随机近端方法的高效学习算法,用于处理数十亿单词令牌的层次稀疏编码,实验表明该方法在各种基准任务上的表现优于或与最先进的方法相媲美。
Jun, 2014
当前的开放域神经语义解析器表现出色,但对于它们产生的符号意义表示进行近距离检查后发现存在显著的弱点:有时它们倾向于仅从源文本中复制字符序列以形成符号概念,并根据训练分布中的最常见词义为默认。通过利用词汇本体的层次结构,我们介绍了一种基于概念在分类层次中位置的新颖组合符号表示。该表示提供了更丰富的语义信息和更强的可解释性。我们引入了一种名为 “分类” 的神经语义解析器,以利用这种新的谓词表示系统,并将其与训练在传统意义表示格式上的标准神经语义解析器进行了比较,并使用新的挑战集和评估指标进行评估。我们的实验发现表明,基于更丰富和复杂的意义表示进行训练的 “分类” 模型在性能上略为次于使用标准指标进行评估的传统模型,但在处理词汇表外概念时表现优于传统模型。这个发现对于旨在将数据驱动的分布式含义与基于知识的符号表示相结合的计算语义研究非常鼓舞。
Apr, 2024
大型语言模型的表示空间中如何编码语义含义是可解释性中的一个根本问题。本文研究了这一领域的两个基本问题:第一,如何表示类别概念,如 “哺乳动物”、“鸟类”、“爬行动物”、“鱼类” 等;第二,如何编码概念之间的层级关系,例如 “狗” 是 “哺乳动物” 的一种。我们通过扩展线性表示假设来回答这些问题,并发现了一个非常简单的结构:简单的类别概念被表示为单纯形,具有层级关系的概念在某种意义上是正交的,并且(作为结果)复杂的概念被表示为由单纯形的直和构成的多面体,反映了其层级结构。我们使用来自 WordNet 的数据验证了这些理论结果,在 Gemma 大型语言模型上估计了 957 个具有层级关系的概念的表示。
Jun, 2024