用于生物医学知识图谱的基准数据集和负面陈述

Jul, 2023

用于生物医学知识图谱的基准数据集和负面陈述

Benchmark datasets for biomedical knowledge graphs with negative statements

Rita T. Sousa, Sara Silva, Catia Pesquita

TL;DR知识图谱中的负面陈述可以改善知识图谱嵌入的性能，并提供用于负面陈述的基准数据集。

Abstract

knowledge graphs represent facts about real-world entities. Most of these facts are defined as positive statements. The negative statements are scarce but highly relevant under the open-world assumption. Furtherm

knowledge graphs negative statements biomedical domain benchmark dataset knowledge graph embeddings

发现论文，激发创造

具有否定语句的生物医学知识图谱嵌入

提出了一种能够将负面语句纳入知识图谱表示学习过程中的新方法 TrueWalks，通过一种能够区分正面和负面语句并考虑本体知识图谱中否定的语义涵义的新型遍历生成方法，有效改善了知识图谱嵌入方法在生物医学领域中负面语句的不足，同时在蛋白质相互作用预测和基因疾病关联预测两个任务中验证了该方法在知识图谱嵌入上的全面性能提升。

Aug, 2023

负采样对知识图谱链接预测的影响分析

本文通过实证研究，对比了对知识图谱中实体之间关系进行无监督学习的四种嵌入模型（ escal，TransE，DistMult 和 ComplEX）使用不同负采样方法的效果，结果发现使用不同负采样方法得到的效果差异较大，且在不同数据集上表现也各有不同。

Aug, 2017

保持积极：无需负采样的知识图谱嵌入

该论文提出了一种训练过程，通过向损失函数添加新颖的正则化项，避免了使用负采样的需要，并且在两个关系嵌入模型（DistMult 和 SimplE）中得到了优异的性能和速度。

Jan, 2022

LEMON: 知识图谱嵌入负采样的语言模型

本文提出了一种利用预训练语言模型来生成负样本的方法，该方法利用实体之间的距离通过它们的文本信息形成邻域集群，以得到符号实体的表示形式，有效地应用于基准知识图谱的链接预测任务。

Mar, 2022

知识图表示学习中的负采样：综述

知识图谱表示学习（KGRL）或知识图谱嵌入（KGE）在知识构建和信息探索的人工智能应用中起着至关重要的作用。这篇综述论文系统地回顾了各种负采样（NS）方法及其对 KGRL 成功的贡献，将现有的 NS 方法按照五个不同的类别进行了分类，并指出了各自的优缺点。此外，该综述还提出了一些开放性研究问题，为未来的研究提供了潜在方向。通过提供基础 NS 概念的概括和对齐，这篇综述为在 KGRL 环境下设计有效的 NS 方法提供了有价值的洞察，并为该领域的进一步发展提供了动力。

Feb, 2024

NegatER：基于常识知识库的负例自动发现方法

该研究提出了 NegatER 框架，使用上下文语言模型对常识知识库中的负面语句进行排序，不需要真实的负面数据，有助于完成知识库中的缺失信息。实验结果证明，与多种数据扩增方法相比，NegatER 产生的负面语句更合理、更连贯、更具有信息量，以显著地提高知识库补充任务的准确性，证实了语言模型中的正面知识可以 “重新利用” 来生成负面知识。

Nov, 2020

KG-NSF: 无负样本的知识图谱补全方法

通过交叉相关矩阵，提出一种克服负采样限制，能够快速学习知识图谱（KG）嵌入的负采样免费框架（KG-NSF），其具有与基于负采样的方法相当的链接预测性能，同时收敛更快。

Jul, 2022

生物医学知识图谱嵌入的基准与最佳实践

利用知识图谱嵌入学习方法，探索在 SNOMED-CT 知识图谱中学习生物医学知识表征的能力，提供性能测试及最佳实践，并强调利用知识图谱多关系特性学习知识表征的重要性。

Jun, 2020

使用词汇 - 语义约束生成生物医学自然语言推理数据集用于对抗样本

利用新型半监督过程从现有生物医学数据集生成一个针对复杂决策中自然语言推理问题的数据集 BioNLI，进行负样本生成的实验，准确度中等，在不同的负样本分类上表现不同。

Oct, 2022

这不是一个数据集：一个用于挑战大规模语言模型的大规模否定评估基准

大型语言模型在理解否定时表现亚优，本研究通过引入一个大规模自动生成的常识知识数据集，涉及到约 40 万个描述性句子，其中大约 2/3 的句子包含否定形式，使用零样本学习方法对现有开源语言模型进行测试，结果表明尽管模型对于肯定的句子有较高准确性，但在否定句子方面存在困难，缺乏深入理解否定的能力。尽管在否定句子上对模型进行微调可以提高其性能，但在处理否定方面仍然存在泛化能力不足的问题，突显出大型语言模型在否定理解和泛化方面仍面临挑战。

Oct, 2023