格鲁吉亚语中的同音词义消歧

Apr, 2024

Homonym Sense Disambiguation in the Georgian Language

Davit Melikidze, Alexander Gamkrelidze

TL;DR该研究提出了一种新的方法来解决乔治亚语中的词义消歧（WSD）任务，该方法基于对预训练的大型语言模型（LLM）在通过过滤乔治亚通用爬取语料库形成的数据集上进行有监督的微调。该研究的目标是强调有关乔治亚语中同音异义词消歧的特定问题，并介绍我们的解决方法。

Abstract

This research proposes a novel approach to the word sense disambiguation (WSD) task in the georgian language, based on supervised fine-tuning

word sense disambiguation georgian language supervised fine-tuning dataset homonym disambiguation

发现论文，激发创造

统一语义表示的多语言词义消歧

本文提出了一种基于多语言词典建立知识和监督为基础的多语言词义消歧（MWSD）系统的方法，利用统一的语义表示，将多种语言的注释进行共同训练以解决 MWSD 的注释稀缺问题，并在 SemEval-13 和 SemEval-15 数据集上展示了该方法的有效性。

Oct, 2022

词汇歧义检测与词义消歧综述

该研究论文探讨自然语言处理领域中关于理解和解决语言中的歧义的技术，强调了多义性和同音异义性等语言现象的复杂性，以及它们对计算模型的影响。论文详细介绍了从深度学习技术到利用词汇资源和知识图谱（如 WordNet）的各种方法，重点研究了词义消歧（Word Sense Disambiguation）。它引入了词义扩展（word sense extension）和神经肌阵挛方法等最新方法，通过预测新的词义来提高消歧准确性。论文还讨论了生物医学消歧和语言特定优化等具体应用，并讨论了认知隐喻在话语分析中的重要性。研究还确定了该领域存在的持续挑战，例如词义注释语料库的稀缺性和非正式临床文本的复杂性。最后，论文提出了未来的研究方向，包括使用大型语言模型、视觉词义消歧和多语言词义消歧系统，强调了在处理自然语言处理中的词汇复杂性方面的持续演进。该研究论文突显了这一领域在使计算机更准确地理解语言方面的进展。

Mar, 2024

使用仅词嵌入的方法对 158 种语言进行词义消歧

本研究提出了一种基于预训练的词嵌入，利用完全无监督和无基于知识的方法诱导一个完整的词义库，并实现对 158 种语言中的单词进行上下文消歧，对于资源匮乏的语言特别有用。

Mar, 2020

使用主题模型的基于知识的词义消歧

本研究使用主题模型的形式设计了一种词义消歧系统，使其在上下文单词数线性增长的情况下扩展，该方法在 5 个英语全单词 WSD 数据集上进行的评估表明，其性能优于这一领域的当前最先进无监督知识为基础的 WSD 系统。

Jan, 2018

将弱监督的词义消歧集成到神经机器翻译中

本研究探讨了利用词义消歧算法扩大上下文范围提高神经机器翻译的效果，通过引入三种自适应聚类算法进行了验证并在 SemEval 数据上进行了评估，随后在一个最先进的 NMT 系统中联合学习单词向量和最佳 WSD 算法定义的词义向量，最终证明这种方法可以优于几个基准模型。

Oct, 2018

词义归纳技术的现状：一种面向资源匮乏语言的词义消歧方法

这篇论文是关于如何运用词义感知诱导方法在缺乏词汇资源的语言中初始开展词义消岐研究，并提出了一些有趣的研究重点。

Oct, 2013

使用双向 LSTM 进行词义消歧

本文提出了一个使用双向长期短期记忆网络的干净而有效的词义消歧模型，该模型能够共享统计强度并且随着词汇量的增长实现很好的可扩展性。我们对其进行了两个标准数据集的评估，并取得了与最佳现有系统相同的效果，同时没有使用任何外部资源或手工编写规则。

Jun, 2016

基于多注意力机制的新型神经序列模型用于词义消歧

通过引入注意力机制，本文提出一种新的词义消歧方法，将多种语言特征的多重注意力权重结合在一起，构建了一个更加灵活的编码器 - 解码器模型，从而在实现高准确率的同时，缩小了模型与人类专家之间的差距。

Sep, 2018

通过上下位关系提高神经词义消歧的覆盖率和泛化能力

本文提出了一种新方法解决词义消歧中受语料库覆盖率和效率限制的问题，利用 WordNet 中的知识以及 Synsets 之间的上下位关系来减少所需的不同词义标记的数量，从而在大多数 WSD 评估任务上实现最先进的结果，在不使用附加训练数据的情况下提高督导系统的覆盖范围、减少训练时间和模型的大小，此方法结合集成技术和 WordNet Gloss Tagged 作为训练语料时可以得到显着的超越当前最先进状态的结果。

Nov, 2018

整合多种知识源以消歧词义：以例为基础的方法

采用基于样例的学习算法进行词义消歧，并整合了各种知识源对词义进行消歧，包括词性、周围单词的形态、局部习惯用语和动词 - 宾语句法关系等。在常见数据集和自行构建的大型已标记语料库上，该方法提高了词义消歧的准确性。

Jun, 1996