使用词向量进行半自动 WordNet 关联

Jan, 2022

使用词向量进行半自动 WordNet 关联

Semi-automatic WordNet Linking using Word Embeddings

PDF

Kevin Patel, Diptesh Kanojia, Pushpak Bhattacharyya

TL;DR本文提出一种将不同语言的词汇网络进行链接的方法，可用于自然语言处理等知识性应用，能够在目标语言的候选词汇同义词集排名的前十位中为 60％的所有同义词集和 70％的名词同义词集检索出获胜的同义词集。

Abstract

wordnets are rich lexico-semantic resources. Linked wordnets are extensions of →

wordnets linked wordnets natural language processing lexico-semantic resources multilingual

发现论文，激发创造

印度语言 Wordnet 及其与普林斯顿 WordNet 的链接

本研究为提高南亚次大陆语言自然语言处理技术，发布了 18 种印第安语言 Wordnet 资源。这些资源是专家手工创建的，与普林斯顿 WordNet 连接。

Jan, 2022

自动构建 Wordnet 同义词集

通过使用公开的 Wordnets、机器翻译和单语种双语字典，我们提出了一种方法来为资源丰富和资源贫乏的语言生成 Wordnet 同义词集，这些方法适用于至少存在一种从英文翻译到该语言的双语词典的任何语言，是自动构建完整 Wordnets 的第一步。

Aug, 2022

利用句子嵌入进行词义归纳自动构建 WordNet

该研究提出了一种基于句子嵌入语言模型的自动构建词网的方法，利用未标记的语料库构建了 FilWordNet，该方法在不需人为监督的情况下可以自动感知词义和同义词集。

Apr, 2022

ConceptNet 5.5: 开放通用多语言知识图谱

本文介绍了一种与现代 NLP 技术（如单词嵌入）特别匹配的概念网路资源 ConceptNet 的新版本，它能够连接自然语言，改善它对单词意义的理解，同时对单词嵌入提供理解和应用，从而提高自然语言应用程序的性能。

Dec, 2016

注入词库的短语嵌入用于命名实体识别

本文提出了一种新的学习单词嵌入的方法，可以利用相关词汇表的信息来改进单词表示，并使用神经单词嵌入在 CoNLL 和 Ontonotes NER 中实现了最先进的结果。在公共数据上取得了 90.9 的 F1 评分，优于以前的任何系统，并与使用私有工业查询日志数据的系统匹配。

Apr, 2014

Watset: 从同义词图中自动归纳同义词集

本研究提出了一种基于图的方法，利用同义词词典和词嵌入诱导同义词集。首先，我们建立了一个从常见资源（例如 Wiktionary）中提取同义词的加权图。其次，我们应用词义归纳来处理有歧义的单词。最后，我们将有歧义输入图的已消除歧义版本聚类到同义词集中。虽然方法简单，但在三个由人工构建的大规模词汇资源衍生的英语和俄语的黄金标准数据集上，在 F-score 方面表现出优秀的结果，超越了五种有竞争力的最新方法。

Apr, 2017

将词向量改进应用于语义词典

本文提出了一种基于语义词典的关系信息来改进词向量表示的方法，并在多种语言的标准词汇语义评估任务中获得了显著的改进，其方法超越了以往词向量训练算法中融入语义词典的技术。

Nov, 2014

SemEval-2017 任务 2 中的 ConceptNet: 用多语言关系知识扩展词嵌入

使用基于 ConceptNet 的知识图谱和分布式语义学，第一次在 SemEval 2017 任务 2 “多语和跨语义词相似度” 中构建高质量多语词嵌入，目前在与多种语言相关的子任务中占据第一名。

Apr, 2017

将 ImageNet WordNet Synsets 与维基数据链接

本文介绍我们正在进行的将 ImageNet 和 WordNet 同义词集链接到 Wikidata 项目的努力，并讨论在匹配 Wikidata 和 WordNet 知识图谱时面临的问题。作者展示了如何在深度学习环境中使用链接进行实时非英语图像分类和标注，并探讨了未来的机遇。

Mar, 2018

推进阿拉伯语词网：提升内容质量

高质量的词网（WordNets）对于依赖此类资源的 NLP 应用程序来说非常重要。为了解决诸如词汇错误、缺失的释义和例句，以及语言形态和语义的不完善等问题，我们对阿拉伯语 WordNet 进行了重大修订，更新了超过 58% 的同义词集。通过添加缺失的信息和纠正错误，同时还扩展了词网结构，引入了新的元素：短语和词汇空缺，以应对语言多样性和不可翻译性的问题。

Mar, 2024