RuDSI:基于图形的俄语词义感知数据集
这篇研究论文描述了第一个关于俄语词义归纳(WSI)的共享任务的结果,使用 sense embeddings 方法,创新性的从维基百科、学术语料库和俄罗斯解释词典中开发三个新的评估数据集,为具有许多斯拉夫语言特征的斯拉夫语言探索词义归纳和消歧方法等主题。
Mar, 2018
本文介绍了一种通过识别句中单词使用的不同含义进行分组的无监督词义归纳(WSI)任务。最近的工作使用了预先训练的 RNN 语言模型(ELMo)来进行聚类,并且将该方法适用于 BERT 进一步提高了得分。本文通过提出一种解释聚类结果的方法来扩展先前的方法支持动态而非固定数量的簇,并执行了广泛的错误分析来揭示 WSI 任务中剩余错误的来源。
May, 2019
通过群集将一个多义词的用法分组成对应的几个义项,以发现该多义词的义项是 Word Sense Induction (WSI) 的任务。本研究提出了适用于 100 种语言的多语言替代基础的 WSI 方法,无需或仅需很少调整就能适应不同语言,这些方法在流行的英语 WSI 数据集上与现有的单语方法性能相当,为缺乏英语词汇资源的低资源语言提供了有用的无监督方法。
May, 2024
该论文介绍了我们参与俄语单词词义感知和消除方面的 RUSSE'2018(Panchenko 等人,2018)的首个共享任务。我们通过使用词嵌入的重量平均值和神经机器翻译系统,在该任务中表现出了优异的结果并超越了先前年份基于语义嵌入的竞争性基线。
May, 2018
本研究提出了一种基于图的方法,利用同义词词典和词嵌入诱导同义词集。首先,我们建立了一个从常见资源(例如 Wiktionary)中提取同义词的加权图。其次,我们应用词义归纳来处理有歧义的单词。最后,我们将有歧义输入图的已消除歧义版本聚类到同义词集中。虽然方法简单,但在三个由人工构建的大规模词汇资源衍生的英语和俄语的黄金标准 数据集上,在 F-score 方面表现出优秀的结果,超越了五种有竞争力的最新方法。
Apr, 2017
我们提供了一个词语使用图(WUGs)数据集,其中现有的多种语言的 WUGs 通过作为语义定义的聚类标签丰富起来。通过微调编码 - 解码语言模型从头生成这些 WUGs。进行的人工评估显示,与两个基准系统从 WordNet 选择的定义相比,这些定义更好地匹配 WUGs 中的现有聚类。同时,该方法易于使用,并且可以轻松扩展到新的语言。由此产生的丰富数据集对于进行可解释的语义变化建模非常有帮助。
Mar, 2024
本文提出了一种基于分层聚类和不变信息聚类的新型无监督方法,用于解决自然语言处理中的词义识别问题,该方法可以在某些情况下优于目前提出的任何方法,并在其他情况下表现出竞争力。
Oct, 2022
本文提出一种基于 sense embeddings 方法的词义感知 (word sense induction) 算法,通过 Sense 聚类和 Contextual 向量来辨别多义词的词义,相对于传统基于分布式模型的方法,我们的算法可以更好地处理语义相似性,通过对 SemEval-2010 数据进行的实验表明,本算法的效果优于所有参赛者及最近的大部分最新方法。
Jun, 2016
该研究总结了俄语语义相似性评估 (RUSSE) 共享任务的概述,提出了一种基于四个新颖基准数据集的俄语语义相似性评估方法,并通过对 19 个团队的 105 个提交信息的分析,证明英语中成功的方法也可以直接适用于俄语。
Mar, 2018