多语言基于替代的词义归纳

May, 2024

Multilingual Substitution-based Word Sense Induction

Denis Kokosinskii, Nikolay Arefyev

TL;DR通过群集将一个多义词的用法分组成对应的几个义项，以发现该多义词的义项是 Word Sense Induction (WSI) 的任务。本研究提出了适用于 100 种语言的多语言替代基础的 WSI 方法，无需或仅需很少调整就能适应不同语言，这些方法在流行的英语 WSI 数据集上与现有的单语方法性能相当，为缺乏英语词汇资源的低资源语言提供了有用的无监督方法。

Abstract

word sense induction (wsi) is the task of discovering senses of an ambiguous word by grouping usages of this word into clusters corresponding to these senses. Many approaches were proposed to solve →

word sense induction wsi multilingual substitution-based wsi methods languages unsupervised methods

发现论文，激发创造

基于替换的词义识别的改进

本文介绍了一种通过识别句中单词使用的不同含义进行分组的无监督词义归纳（WSI）任务。最近的工作使用了预先训练的 RNN 语言模型（ELMo）来进行聚类，并且将该方法适用于 BERT 进一步提高了得分。本文通过提出一种解释聚类结果的方法来扩展先前的方法支持动态而非固定数量的簇，并执行了广泛的错误分析来揭示 WSI 任务中剩余错误的来源。

May, 2019

利用层次聚类和互信息最大化进行词义归纳

本文提出了一种基于分层聚类和不变信息聚类的新型无监督方法，用于解决自然语言处理中的词义识别问题，该方法可以在某些情况下优于目前提出的任何方法，并在其他情况下表现出竞争力。

Oct, 2022

词义归纳技术的现状：一种面向资源匮乏语言的词义消歧方法

这篇论文是关于如何运用词义感知诱导方法在缺乏词汇资源的语言中初始开展词义消岐研究，并提出了一些有趣的研究重点。

Oct, 2013

词义感知词向量学习

本文提出一种基于 sense embeddings 方法的词义感知 (word sense induction) 算法，通过 Sense 聚类和 Contextual 向量来辨别多义词的词义，相对于传统基于分布式模型的方法，我们的算法可以更好地处理语义相似性，通过对 SemEval-2010 数据进行的实验表明，本算法的效果优于所有参赛者及最近的大部分最新方法。

Jun, 2016

统一语义表示的多语言词义消歧

本文提出了一种基于多语言词典建立知识和监督为基础的多语言词义消歧（MWSD）系统的方法，利用统一的语义表示，将多种语言的注释进行共同训练以解决 MWSD 的注释稀缺问题，并在 SemEval-13 和 SemEval-15 数据集上展示了该方法的有效性。

Oct, 2022

大规模基于替换的词义归纳

本文提出一种基于预训练掩码语言模型（MLMs）的词义归纳方法，可以扩展到大词汇和大语料库，其结果是一个按语料库导出的意义清单进行感知标记的语料库，每个意义将与指示性单词相关联，通过在此感知标记语料库上训练静态单词嵌入算法，我们获得了优质的静态感知嵌入。这种数据驱动算法的本质可用于感知特定于语料库的感觉，正如我们在科学领域的案例研究中所证明的那样。

Oct, 2021

RUSSE'2018：俄语词义归纳共享任务

这篇研究论文描述了第一个关于俄语词义归纳（WSI）的共享任务的结果，使用 sense embeddings 方法，创新性的从维基百科、学术语料库和俄罗斯解释词典中开发三个新的评估数据集，为具有许多斯拉夫语言特征的斯拉夫语言探索词义归纳和消歧方法等主题。

Mar, 2018

基于神经双向语言模型和对称模式的词义归纳

本文提出通过使用循环神经网络语言模型和动态对称模式来有效查询以替代目标单词的概率，从而诱导出它们的词义，进而得到用于 Word Sense Induction 的强大替代向量，从而大幅度超越 SemEval 2013 WSI 共享任务的当前最先进技术。

Aug, 2018

使用仅词嵌入的方法对 158 种语言进行词义消歧

本研究提出了一种基于预训练的词嵌入，利用完全无监督和无基于知识的方法诱导一个完整的词义库，并实现对 158 种语言中的单词进行上下文消歧，对于资源匮乏的语言特别有用。

Mar, 2020

词义归纳的 AutoSense 模型

提出一种基于自动感知的潜在变量模型 AutoSense，用于解决词的多个意义或含义的概率计算问题，该方法可以在不需要超参数调整和非参数归纳的情况下消除需要，使其适应不同的词语含义概率计算，同时在常用的 WSI 数据集上表现出更好的效果，并且可以在无监督的作者名称消岐任务中，得到明显改善。

Nov, 2018