- 格鲁吉亚语中的同音词义消歧
该研究提出了一种新的方法来解决乔治亚语中的词义消歧(WSD)任务,该方法基于对预训练的大型语言模型(LLM)在通过过滤乔治亚通用爬取语料库形成的数据集上进行有监督的微调。该研究的目标是强调有关乔治亚语中同音异义词消歧的特定问题,并介绍我们的 - PejorativITy: 消除贬低性别词汇以提高对意大利推文中的厌女植入的检测
揭示了使用意象语言表达的厌女情绪,分析中性词汇负面含义与歧视女性的关系,提出了一个基于推文语料库的方法,在词级别上注释了 1,200 个意大利推文中的贬义词汇以及句子级别上的厌女情绪,并研究了注入需解释词汇信息对厌女情绪检测模型的作用和两种 - 词汇歧义检测与词义消歧综述
该研究论文探讨自然语言处理领域中关于理解和解决语言中的歧义的技术,强调了多义性和同音异义性等语言现象的复杂性,以及它们对计算模型的影响。论文详细介绍了从深度学习技术到利用词汇资源和知识图谱(如 WordNet)的各种方法,重点研究了词义消歧 - 通过语义词汇资源增强现代监督式词义消歧模型
通过在现代监督式词义消歧模型中将语义特征引入分类器并考虑使用语义词典结构来增加训练数据,本文提出了一种有效的增强模型。通过研究不同类型的语义特征与本地上下文的交互作用,本文将所提出的模型扩展为一种新颖的多层架构,实验证明这种方法可以与现有的 - 解决命名实体中的正交多义性
通过基于规则同义词的光点物体来解决 proper names 产生的歧义问题,本文引入了一种结合词义消岐模型,用于对中文词网(CWN)和光点物体作为 proper names 进行歧义消岐。该模型利用了基于词网的模型结构的灵活性,从而充分发 - 香港科技大学在 SemEval-2023 任务 1 中的视觉词义消歧:通过上下文增强和视觉辅助
我们提出了一个多模态检索框架,充分利用了预训练的视觉 - 语言模型、开放知识库和数据集,通过处理上下文与目标词的含义进行匹配、使用提示模板整合匹配的描述和其他文本信息进行图像检索、融合不同模态的上下文信息并用于预测,为词义消歧和多模态学习领 - SALMA: 阿拉伯语义标注语料库和 WSD 基准测试
SALMA 是第一个阿拉伯语的语义注释语料库,包含约 34K 个令牌,所有令牌都进行了语义注释,并使用两个不同的语义库(现代语义库和 Ghani 语义库)进行注释。该语料库的创新之处在于如何关联令牌和语义,SALMA 将令牌与多个语义关联并 - 语义处理技术综述
本综述分析了语义处理的五个任务:词义消歧、指代消解、命名实体识别、概念提取和主观性检测,并研究了相关的理论研究、先进方法和下游应用。同时,我们还对不同的语义处理技术进行了比较,并总结了它们的技术趋势、应用趋势和未来方向。
- EMNLP能否借助词义分布检测词义的语义变化?
通过比较两个不同时期收集的语料库中目标词义的分布,利用预训练的静态感知嵌入自动标注每个语料库中目标词出现的感知 id,并使用不同的差异或距离度量来量化目标词在两个给定语料库中的语义变化,实验结果在 SemEval 2020 任务 1 数据集 - ContrastWSD: 在遵循隐喻识别程序的基础上通过词义消歧提高隐喻检测的性能
该研究提出了一种基于 RoBERTa 的隐喻检测模型 ContrastWSD,它结合了隐喻识别过程(MIP)和词义消歧(WSD),通过提取和对比单词的上下文意义和基本含义,确定其是否在句子中以隐喻方式使用。通过利用来自 WSD 模型的词义, - 神经符号飞镖游戏下的词义消歧
通过神经符号方法在嵌入式感知球的配置和逻辑推理中使得词义消岐的 F1 分数达到 90% 以上,从而突破了利用深度学习方法对词义消岐的准确度的层限。
- 将上下文引入到文本对文本的隐私化
该论文基于度量差分隐私技术,通过加入标定的噪声到单词的向量,并将这个嘈杂的向量通过最近邻搜索算法之后重新映射回离散词汇表,以实现文本到文本的保护。考虑到例如 ' 银行 ' 这样的歧义词,论文通过利用同义词的向量并结合歧义消解步骤来改进该机制 - ACL联合学习元感嵌入:从预训练静态感觉嵌入中学习
本文提出了第一种元语义嵌入方法 - 近邻保留元语义嵌入,该方法通过组合多个独立训练的源感知嵌入来学习元感知嵌入,从而保留了源嵌入中计算的感知邻域,实验证明该方法在词义消歧和上下文词任务中持续优于竞争基线。
- ACL端到端隐喻检测的对抗多任务学习
本论文提出了一种基于多任务学习的方法,通过使用对对手学习进行元喻识别模型与词义消歧模型间的特征转移,从而缓解元喻识别领域中因数据量过少而导致的问题。实验表明,该方法具有很好的性能表现。
- ACL歧义遇到不确定性:探索词义消歧的不确定性估计
本文针对单词语义消歧(WSD)问题,对现有的监督学习方法在真实世界场景中处理噪声和分布不均问题时不足的问题进行研究。首先比较了几种不确定性评分方法,然后通过测试场景对数据和模型的不确定性进行分析并探究了对其产生影响的多种词汇属性。
- 使用预训练语言模型进行零样本多语言词义消歧
本文使用 Contextual Word-Level Translation 扩展了 Pretrained Language Models 来探究 PLM 对跨语言词义的捕捉能力,进而提高零样本单词语义消歧的效果,结果表明我们的方法在多种语 - ACL基于知识的词义消歧的语义专业化
本文提出了一种基于词汇知识的语境化嵌入模型用于词义消岐,将相关语义的词义和上下文靠近,将不相关的远离,用 Attract-Repel 目标函数和自训练目标函数对嵌入进行调整,实现了在知识为基础的词义消岐方面的最新前沿成果。
- 使用词义消歧解决多词表达识别的问题
本文中,我们使用 Bi-encoder 模型训练了一个过滤多词表达式候选人的模型,该模型使用锁定和上下文信息。我们在 DiMSUM 数据集上实现了最优结果,在 PARSEME 1.1 英语数据集上使用此方法获得了有竞争力的结果。同时,我们还 - 语言模型了解单词义项吗?使用语言模型和领域库进行零样本词义消歧
本文探讨了语言模型在推理时区分词义的能力,并将词义消歧视为文本蕴含问题,通过领域分类的方式在常用语言模型上进行了实验,结果表明这种方法的效果接近于有监督学习系统。
- EMNLPSMSMix: 词义消歧的感知维护句子混淆
本论文提出了一种 Sense-Maintained Sentence Mixup (SMSMix) 的新型数据增强方法,维护特定词的含义并在 NLP 中应用 mixup 来提升数据集中稀有词义的准确性。在实验证明,该方法可以有效地提高数据增