FEWS:基于词典的大规模低样本词义消歧
本研究提出了一种基于预训练的词嵌入,利用完全无监督和无基于知识的方法诱导一个完整的词义库,并实现对158种语言中的单词进行上下文消歧,对于资源匮乏的语言特别有用。
Mar, 2020
本文提出了一种简单的方法,为大多数无歧义单词提供注释,引入了UWA(无歧义单词注释)数据集,并展示了一种最先进的基于传播的模型如何使用它来显著提高其词义嵌入覆盖范围和质量,从而改善了其在WSD上的原始结果。
Apr, 2020
本文提出了一个基于元学习的少样本词义消歧框架,用于从极少数标记实例中学习消除未见过单词的歧义。与传统的 Meta-learning 测试方式不同,本研究还探讨了在应对高度不平衡的多类别问题时,几个流行元学习方法在 WSD 任务中的优缺点。
Apr, 2020
本文对BERT模型在词汇歧义方面的能力及其潜在局限性进行了深入的定量和定性分析。作者发现,BERT可以准确地捕捉高级别的意义区别,但对于具有限定条件的名词消歧问题,处理仍存在很多挑战。作者还在两种主要的基于语言模型的WSD策略(即微调和特征提取)之间进行了深入比较,并发现后一种方法更为稳健。
Aug, 2020
本文提出了一种基于MetricWSD的非参数的少样本学习方法,通过进行情节性训练,并学习计算给定单词的不同意义之间的距离,将高频词的学习度量空间转移到低频的单词中,从而避免了在自然语言处理中监督式全单词WSD的一个重要挑战中的数据不平衡问题。该方法在不依赖任何词汇资源的情况下,能够获得强大的性能,并通过联合WSD评估基准实现了75.1 F1得分的良好表现。
Apr, 2021
本文提出了一种基于多语言词典建立知识和监督为基础的多语言词义消歧(MWSD)系统的方法,利用统一的语义表示,将多种语言的注释进行共同训练以解决MWSD的注释稀缺问题,并在SemEval-13和SemEval-15数据集上展示了该方法的有效性。
Oct, 2022
本文探讨了语言模型在推理时区分词义的能力,并将词义消歧视为文本蕴含问题,通过领域分类的方式在常用语言模型上进行了实验,结果表明这种方法的效果接近于有监督学习系统。
Feb, 2023
本文使用Contextual Word-Level Translation扩展了Pretrained Language Models来探究PLM对跨语言词义的捕捉能力,进而提高零样本单词语义消歧的效果,结果表明我们的方法在多种语言上的效果均好于监督学习基线。
Apr, 2023
我们提倡在跨语言零-shot词义消歧中使用大型预训练单语语言模型,并结合一种上下文映射机制。我们通过字典学习过程获得了稀疏上下文化词表示,并进行了严格的实验,证明了上述改进带来了显著的提升,平均F分数增加了近6.5个百分点(从62.0增加到68.5),涵盖了17种语言。我们在此网址发布了复制实验的源代码。
Jul, 2023