多义性的几何学
本文提出了一种基于上下文嵌入空间中的简单几何形式的新颖方法来评估多义性,该方法是完全无监督和纯数据驱动的,能够较好地反映来自 WordNet、OntoNotes、Oxford 和维基百科等 6 种不同标准度量方法的排名,并能对人工排名之间的相关性进行可视化和分析。同时,该方法的一个有价值的附带产品是在不增加成本的情况下进行不同词义的样本句子抽取。最后,完全无监督的本方法使其适用于任何语言。
Mar, 2020
该文提出了一种基于主题模型的 skip-gram 方法来学习多原型词嵌入,同时介绍了一种修剪嵌入的方法,用于代表每个主题中每个单词的概率表示, 并将我们的嵌入用于展示它们可以强烈地捕获上下文和词汇相似性,并优于各种最先进的实现。
Sep, 2019
通过本文,我们引入了概念归纳这个非监督任务,从数据中学习一组定义概念的词语软聚类,该任务概括了词义归纳的任务。我们提出了一种双层方法来进行概念归纳,充分利用了本地词元为中心和全局跨词库视角来引导概念的生成。我们在 SemCor 的注释数据上评估所得到的聚类,并获得了良好的性能(BCubed F1 大于 0.60)。我们发现在我们的设置中,本地和全局层次相互有益于概念和词义的生成。最后,我们创建了表示我们引入的概念的静态嵌入,并在上下文任务中使用它们,取得了与现有技术相媲美的性能。
Jun, 2024
此研究综述了分布式语义表示的理论背景,介绍了从单词级别向更精细的词义级别转化的方法,并提供了对两种主要分支进行的广泛技术概述;最终,对其重要方面进行了分析与评估。
May, 2018
本文研究了词向量的解释问题,提出了一种算法可通过上下文信息和目标词语推断其意义,进而利用循环神经网络生成该词汇的定义,实现对词向量的直接解释。同时,作者提出了一个高质量的词汇上下文 - 定义数据集,用于词义消歧与定义建模。经实验测试,该方法在 BLEU 评分和人工评估测试中表现出卓越的性能。
Sep, 2018
本文提出了一种基于不同主题学习单词的多个分布式表示的分布式语义模型,该模型通过不同主题训练不同的 DSM,然后将每个基于主题的 DSM 对齐到一个公共向量空间,实现了最先进的上下文词语相似性任务,并且在 NLP 下游任务中表现出比单一原型模型更好的性能。
Apr, 2019
本文考察了是否需要先验消除词义歧义,或者词在上下文中可以通过组合来消除歧义。我们评估了现成的单向量和多感知向量模型在基准短语相似性任务和词义判别的新任务中的表现。我们发现,单向量模型的性能比多感知向量模型好,尽管其组成单元表示可能不太规整。此外,我们的研究结果表明,像点对点加法这样的简单组合函数能够从单一向量模型中很好地恢复感官相关信息。
Feb, 2017