RuDSI：基于图形的俄语词义感知数据集

COLINGSep, 2022

RuDSI：基于图形的俄语词义感知数据集

RuDSI: graph-based word sense induction dataset for Russian

PDF

Anna Aksenova, Ekaterina Gavrishina, Elisey Rykov, Andrey Kutuzov

TL;DR本文提出 RuDSI 作为俄语词义归纳的新基准，通过手工注释和半自动聚类生成了数据集，具有完全数据驱动、不施加外部词语含义的特点，实验表明了数种基线词义归纳方法在 RuDSI 上的表现和改进空间。

Abstract

We present RuDSI, a new benchmark for word sense induction (WSI) in russian. The →

word sense induction russian benchmark dataset clustering

发现论文，激发创造

RUSSE'2018：俄语词义归纳共享任务

这篇研究论文描述了第一个关于俄语词义归纳（WSI）的共享任务的结果，使用 sense embeddings 方法，创新性的从维基百科、学术语料库和俄罗斯解释词典中开发三个新的评估数据集，为具有许多斯拉夫语言特征的斯拉夫语言探索词义归纳和消歧方法等主题。

Mar, 2018

基于替换的词义识别的改进

本文介绍了一种通过识别句中单词使用的不同含义进行分组的无监督词义归纳（WSI）任务。最近的工作使用了预先训练的 RNN 语言模型（ELMo）来进行聚类，并且将该方法适用于 BERT 进一步提高了得分。本文通过提出一种解释聚类结果的方法来扩展先前的方法支持动态而非固定数量的簇，并执行了广泛的错误分析来揭示 WSI 任务中剩余错误的来源。

May, 2019

多语言基于替代的词义归纳

通过群集将一个多义词的用法分组成对应的几个义项，以发现该多义词的义项是 Word Sense Induction (WSI) 的任务。本研究提出了适用于 100 种语言的多语言替代基础的 WSI 方法，无需或仅需很少调整就能适应不同语言，这些方法在流行的英语 WSI 数据集上与现有的单语方法性能相当，为缺乏英语词汇资源的低资源语言提供了有用的无监督方法。

May, 2024

俄语网络搜索结果的语义聚类：可能性和问题

本研究为了解决搜索引擎语义检索问题，探讨了从俄语大规模语料库中构建词汇共现图，运用分布式语义模型对于词义归纳和聚类的方法。

Sep, 2014

一个词有多重？为单词语义感知调整词嵌入重量

该论文介绍了我们参与俄语单词词义感知和消除方面的 RUSSE'2018（Panchenko 等人，2018）的首个共享任务。我们通过使用词嵌入的重量平均值和神经机器翻译系统，在该任务中表现出了优异的结果并超越了先前年份基于语义嵌入的竞争性基线。

May, 2018

Watset: 从同义词图中自动归纳同义词集

本研究提出了一种基于图的方法，利用同义词词典和词嵌入诱导同义词集。首先，我们建立了一个从常见资源（例如 Wiktionary）中提取同义词的加权图。其次，我们应用词义归纳来处理有歧义的单词。最后，我们将有歧义输入图的已消除歧义版本聚类到同义词集中。虽然方法简单，但在三个由人工构建的大规模词汇资源衍生的英语和俄语的黄金标准数据集上，在 F-score 方面表现出优秀的结果，超越了五种有竞争力的最新方法。

Apr, 2017

用聚类定义丰富词语使用图

我们提供了一个词语使用图（WUGs）数据集，其中现有的多种语言的 WUGs 通过作为语义定义的聚类标签丰富起来。通过微调编码 - 解码语言模型从头生成这些 WUGs。进行的人工评估显示，与两个基准系统从 WordNet 选择的定义相比，这些定义更好地匹配 WUGs 中的现有聚类。同时，该方法易于使用，并且可以轻松扩展到新的语言。由此产生的丰富数据集对于进行可解释的语义变化建模非常有帮助。

Mar, 2024

利用层次聚类和互信息最大化进行词义归纳

本文提出了一种基于分层聚类和不变信息聚类的新型无监督方法，用于解决自然语言处理中的词义识别问题，该方法可以在某些情况下优于目前提出的任何方法，并在其他情况下表现出竞争力。

Oct, 2022

词义感知词向量学习

本文提出一种基于 sense embeddings 方法的词义感知 (word sense induction) 算法，通过 Sense 聚类和 Contextual 向量来辨别多义词的词义，相对于传统基于分布式模型的方法，我们的算法可以更好地处理语义相似性，通过对 SemEval-2010 数据进行的实验表明，本算法的效果优于所有参赛者及最近的大部分最新方法。

Jun, 2016

RUSSE: 俄语语义相似性首个研讨会

该研究总结了俄语语义相似性评估 (RUSSE) 共享任务的概述，提出了一种基于四个新颖基准数据集的俄语语义相似性评估方法，并通过对 19 个团队的 105 个提交信息的分析，证明英语中成功的方法也可以直接适用于俄语。

Mar, 2018