知识库中的自动同义词发现

Jun, 2017

Automatic Synonym Discovery with Knowledge Bases

Meng Qu, Xiang Ren, Jiawei Han

TL;DR提出了一个新的框架 DPE，通过结合远程监督和语料库级别统计的分布特征和局部上下文的文本模式来相互补充信号，从而发现特定领域知识库实体的同义词。

Abstract

Recognizing entity synonyms from text has become a crucial task in many entity-leveraging applications. However, discovering entity synonyms from domain-specific text corpora (e.g., news articles, scientific papers) is rather challenging. Current systems take an entity name string as input to find out other names that are synonymous, ignoring the fact that o

synonym discovery knowledge bases distributional features textual patterns distant supervision

发现论文，激发创造

利用多段双向上下文匹配进行实体同义词发现

该论文提出了一种多环境下的同义词发现框架，使用分布式假设和神经网络模型 SYNONYMNET，从自由文本语料库中检测出实体的同义词，以提高实体消歧或知识图谱规范化等任务的效果和稳健性。

Dec, 2018

基于字典为基础的同义词概括的生物医学命名实体识别

本研究提出了一种新的同义词泛化（SynGen）框架，使用基于跨度的预测识别输入文本中包含的生物医学概念。通过引入同义词距离正则化器和噪声扰动正则化器，该框架能够降低同义词泛化误差。本研究在多个基准测试中广泛评估了我们的方法，结果表明，SynGen 表现出比以前的基于字典的模型更优异的性能。

May, 2023

利用远程监督联合嵌入实体和文本

本文提出了一种基于远程监督的方法，从未注释的语料库中仅使用实体和表面形式之间的映射列表，联合学习实体和文本的嵌入。与仅依赖于人类注释文本或大型知识图谱结构的先前方法相比，实验结果表明，我们的嵌入可更好地捕捉实体的相似性和关联性。

Jul, 2018

基于知识库指导的预训练和同义词感知微调的生成式生物医学实体链接

本文提出了一种新的方法来解决生物医学实体链接的问题，利用基于知识库的预训练和微调，以及多种类似词的构建方式来进行模型训练，这种方法在多项实验中都取得了最优结果。

Apr, 2022

基于知识库推理的实体消歧方法改进

提出了一种可在符号知识库中通过推理以完全可微的方式连接实体的实体消歧模型，该模型可以使用所有 KB 信息，超过六个著名实体消歧数据集中的现有模型，并在基于不常见和模糊实体的 ShadowLink 数据集中提高 12.7 F1。

Jul, 2022

仅需要你一点帮助就可以发现实体

论文提出了在缺乏背景知识和长尾实体的情况下，通过自动化生成实体出现位置的候选项并结合用户反馈来提高实体链接的准确性的方法。选择了基于梯度互缠的多样化和文本相关性方法作为生成候选项的方法，并在 FACC 数据集上进行了广泛的实验，展示了该方法的有效性。

Oct, 2018

远程监督的实体链接

本文提出了一种名为遥感监督实体链接 (DSEL) 的新模式，它利用 Freebase 和 Wikipedia 的各自优势，桥接实体的已消除的标签 (Freebase) 和它们的文本描述 (Wikipedia)，自动对齐大量的弱标注数据，并将其提供给分类器来链接新发现的实体，实验结果表明，在一个由 140,000 个条目和 60,000 个特征组成的数据集上，基线 F1 值为 0.517，而经过改进后可以达到 0.545。

May, 2015

IXA/Cogcomp 参加 SemEval-2023 第 2 项任务：基于知识库的上下文增强的多语言命名实体识别

本文介绍了一种新的命名实体识别级联方法，它由三个步骤组成：首先在输入句子中识别候选实体，然后将每个候选实体链接到现有的知识库中，最后预测每个实体候选的细粒度类别。实验证明，外部知识库在准确分类细粒度和新兴实体方面具有重要意义，并且我们的系统在 MultiCoNER2 共享任务中表现出强大的性能，即使在使用高资源语言的知识库情况下，也能在低资源语言环境中获得良好的表现。

Apr, 2023

查询短语表示来自动创建命名实体识别数据集

本研究利用短语嵌入搜索构建高覆盖率的实体词典，并利用其生成具有高覆盖率的命名实体识别（NER）数据集。通过利用字典中候选短语与目标实体类型之间的嵌入距离来减少噪声，实现了弱监督 NER 模型的改进。在 6 个 NER 基准测试中，与当前弱监督 NER 模型相比，HighGEN 表现出更为优异的性能。

Oct, 2022

拥抱歧义：利用语境同义词知识提高基于相似度的任务

使用新型的具有实体感知的适配器结构，将多领域的同义词知识注入预训练语言模型，既可解决同义词语义模糊性的问题，又不会破坏 PLM 的原始语义理解，从而能有效提升各类文本任务的性能。

Nov, 2022