语义单元：获取物品感知多样性的进化过程

Apr, 2024

语义单元：获取物品感知多样性的进化过程

Semantic Cells: Evolutional Process to Acquire Sense Diversity of Items

Yukio Ohsawa, Dingding Xu, Kaira Sekiguchi

TL;DR用分布式表示构建多义词语义向量，通过与其他向量交互演化而成，研究结果显示，具有较大或中等方差的词在文本中较容易解释，而通过与不同地壳区域交互获得更大方差的震中可能对应即将发生的大地震震中。

Abstract

Previous models for learning the semantic vectors of items and their groups, such as words, sentences, nodes, and graphs, using distributed representation have been based on the assumption that an item correspond

semantic vectors distributed representation multiple senses contextual shift interaction

发现论文，激发创造

从词到义项嵌入：对意义向量表示的调查

此研究综述了分布式语义表示的理论背景，介绍了从单词级别向更精细的词义级别转化的方法，并提供了对两种主要分支进行的广泛技术概述；最终，对其重要方面进行了分析与评估。

May, 2018

多义性的几何学

本文提出了一种三倍增的方法来进行无监督的多义词建模，其中使用低秩子空间来表示包含目标单词的句子，通过对表示的格拉斯曼几何进行聚类算法对目标单词的不同义项进行消歧辨别，最后基于英文维基百科语料库得出了多个词和词义对的表示，这些算法在标准意义识别和消歧辨别数据集上带来了新的最佳成果。

Oct, 2016

针对深度组合模型的语法感知多义词嵌入

本研究详细介绍了一个基于丰富的单词嵌入的组成分布式框架，旨在促进句子中单词之间的交互，并使用环境中的句法信息来增强向量。研究结果表明，该框架在 MSRPar 任务上取得了具有代表性的结果。

Aug, 2015

xSense: 学习分离词义的稀疏表示和文本定义，实现可解释的词义网络

本文研究了词向量的解释问题，提出了一种算法可通过上下文信息和目标词语推断其意义，进而利用循环神经网络生成该词汇的定义，实现对词向量的直接解释。同时，作者提出了一个高质量的词汇上下文 - 定义数据集，用于词义消歧与定义建模。经实验测试，该方法在 BLEU 评分和人工评估测试中表现出卓越的性能。

Sep, 2018

基于主题模型的多义词嵌入

该文提出了一种基于主题模型的 skip-gram 方法来学习多原型词嵌入，同时介绍了一种修剪嵌入的方法，用于代表每个主题中每个单词的概率表示，并将我们的嵌入用于展示它们可以强烈地捕获上下文和词汇相似性，并优于各种最先进的实现。

Sep, 2019

探究语义类别：诊断单词嵌入的含义内容

本篇研究通过使用大规模手动 Wikipedia 注释和词义，建立了一个新的数据集，其中将来自不同单词的词意通过语义类别相互关联。在此基础上，提出了一种新型的嵌入内容诊断测试方法，并通过将嵌入分类为语义类别进行嵌入空间分析。主要结论是：(i) 单向量嵌入通常很好地表现出词义的信息，但多义词的罕见含义对单向量嵌入的负面影响很小，对依赖于常见含义的自然语言处理应用的性能没有影响。

Jun, 2019

词义感知词向量学习

本文提出一种基于 sense embeddings 方法的词义感知 (word sense induction) 算法，通过 Sense 聚类和 Contextual 向量来辨别多义词的词义，相对于传统基于分布式模型的方法，我们的算法可以更好地处理语义相似性，通过对 SemEval-2010 数据进行的实验表明，本算法的效果优于所有参赛者及最近的大部分最新方法。

Jun, 2016

高风险学习：从微小数据中获取新单词向量

本论文研究了分布式语义模型与小样本数据的问题，并展示了如何使用神经语言模型 Word2Vec，通过以前学习语义空间的背景知识，仅对其标准体系结构进行微小修改，以从微小数据中学习新术语，并在单词定义任务和少量上下文的例子任务中，相较于最先进的模型，呈现出大幅增长的性能。

Jul, 2017

在词使用中捕获进化：只需增加更多聚类吗？

本文旨在研究语义演变在文本数据中的检测与分析方法，特别是基于上下文嵌入的新方法，通过对比多个方法的表现以及提出相关改进策略，显著提高了现有方法的性能。

Jan, 2020

sense2vec - 一种快速准确的神经词嵌入词义消歧方法

本篇论文提出了一种新的方法，基于监督式消歧，为每个单词建立多个嵌入向量，从而针对字面意思和文本语境对不同主题进行消歧，以及在神经依赖分析上具有更好的错误率表现。

Nov, 2015