多语言基于替代的词义归纳
本文介绍了一种通过识别句中单词使用的不同含义进行分组的无监督词义归纳(WSI)任务。最近的工作使用了预先训练的 RNN 语言模型(ELMo)来进行聚类,并且将该方法适用于 BERT 进一步提高了得分。本文通过提出一种解释聚类结果的方法来扩展先前的方法支持动态而非固定数量的簇,并执行了广泛的错误分析来揭示 WSI 任务中剩余错误的来源。
May, 2019
本文提出了一种基于分层聚类和不变信息聚类的新型无监督方法,用于解决自然语言处理中的词义识别问题,该方法可以在某些情况下优于目前提出的任何方法,并在其他情况下表现出竞争力。
Oct, 2022
本文提出一种基于 sense embeddings 方法的词义感知 (word sense induction) 算法,通过 Sense 聚类和 Contextual 向量来辨别多义词的词义,相对于传统基于分布式模型的方法,我们的算法可以更好地处理语义相似性,通过对 SemEval-2010 数据进行的实验表明,本算法的效果优于所有参赛者及最近的大部分最新方法。
Jun, 2016
本文提出了一种基于多语言词典建立知识和监督为基础的多语言词义消歧(MWSD)系统的方法,利用统一的语义表示,将多种语言的注释进行共同训练以解决 MWSD 的注释稀缺问题,并在 SemEval-13 和 SemEval-15 数据集上展示了该方法的有效性。
Oct, 2022
本文提出一种基于预训练掩码语言模型(MLMs)的词义归纳方法,可以扩展到大词汇和大语料库,其结果是一个按语料库导出的意义清单进行感知标记的语料库,每个意义将与指示性单词相关联,通过在此感知标记语料库上训练静态单词嵌入算法,我们获得了优质的静态感知嵌入。这种数据驱动算法的本质可用于感知特定于语料库的感觉,正如我们在科学领域的案例研究中所证明的那样。
Oct, 2021
这篇研究论文描述了第一个关于俄语词义归纳(WSI)的共享任务的结果,使用 sense embeddings 方法,创新性的从维基百科、学术语料库和俄罗斯解释词典中开发三个新的评估数据集,为具有许多斯拉夫语言特征的斯拉夫语言探索词义归纳和消歧方法等主题。
Mar, 2018
本文提出通过使用循环神经网络语言模型和动态对称模式来有效查询以替代目标单词的概率,从而诱导出它们的词义, 进而得到用于 Word Sense Induction 的强大替代向量,从而大幅度超越 SemEval 2013 WSI 共享任务的当前最先进技术。
Aug, 2018
本研究提出了一种基于预训练的词嵌入,利用完全无监督和无基于知识的方法诱导一个完整的词义库,并实现对 158 种语言中的单词进行上下文消歧,对于资源匮乏的语言特别有用。
Mar, 2020
提出一种基于自动感知的潜在变量模型 AutoSense,用于解决词的多个意义或含义的概率计算问题,该方法可以在不需要超参数调整和非参数归纳的情况下消除需要,使其适应不同的词语含义概率计算,同时在常用的 WSI 数据集上表现出更好的效果,并且可以在无监督的作者名称消岐任务中,得到明显改善。
Nov, 2018