面向本体增强的大型语言模型表示学习

May, 2024

面向本体增强的大型语言模型表示学习

Towards Ontology-Enhanced Representation Learning for Large Language Models

Francesco Ronzano, Jay Nanavati

TL;DR通过注入本体知识来改进嵌入式大语言模型（embedding-LLM），本研究利用广泛的本体使用和基于对照学习框架，通过医学疾病本体的生物医学文档，展示了提高嵌入式 LLM 在描述疾病领域中的相似性评估能力的实验结果。

Abstract

Taking advantage of the widespread use of ontologies to organise and harmonize knowledge across several distinct domains, this paper proposes a novel approach to improve an embedding-Large Language Model (embedding-llm<

ontologies knowledge infusion embedding-llm concept definitions biomedical disease ontology

发现论文，激发创造

大型语言模型是否能补充医学本体中缺失的概念和关系？

使用大型语言模型扩展本体的方法在临床实践指南中探索新的医学概念关系，展示了潜在的初步实验结果和未来改进方向。

Nov, 2023

利用大型语言模型进行基于 OntoClean 的本体修正

本研究探讨了将大型语言模型（LLMs）如 GPT-3.5 和 GPT-4 整合到本体修正过程中，特别关注 OntoClean 方法论。研究通过采用两种提示策略的 LLMs，证明了在标注过程中可以获得高准确性，并提出了开发插件软件以促进本体工具整合的潜力。

Mar, 2024

大型语言模型作为实例化具有特定领域知识的本体的预言机

使用大型语言模型自动填充本体论与领域特定知识，通过查询模板生成实例，从而快速丰富本体论。

Apr, 2024

利用大型语言模型进行本体工程

通过自动将自然语言句子转化为描述逻辑，我们使用大型语言模型将自然语言句子转换为 OWL 功能语法，用于丰富本体论，并通过人类监督的方式提供该工具作为 Protge 插件。

Jul, 2023

面向语言模型的本体构建

通过查询大型语言模型，我们提出了一种用于自动构建给定领域概念层级的方法，我们使用 OpenAI 的 GPT 3.5 将该方法应用于不同领域，实验证明 LLM 在构建概念层级方面具有相当的帮助。

Sep, 2023

LLMs4OL：用于本体学习的大型语言模型

我们提出了 LLMs4OL 方法，利用大型语言模型（LLMs）进行本体学习（OL）。通过全面评估使用零训练样例提示方法，我们发现 LLMs 可以有效地应用其语言模式捕捉能力于 OL，该能力包括从自然语言文本中自动提取和结构化知识。评估涵盖了对三个主要的 OL 任务进行九种不同的 LLM 模型家族的评估，包括术语类型化，分类系统发现以及非分类关系的提取，并包含了 WordNet 中的词汇语义知识，GeoNames 中的地理知识以及 UMLS 中的医学知识等多种类型的本体知识。

Jul, 2023

基于语言模型的本体中新概念定位框架

使用语言模型将从文本中提取的新概念插入本体的任务中，我们探索了一种三步骤的方法：边缘搜索，边缘形成和丰富，边缘选择。在所有步骤中，我们提出利用神经方法，其中我们应用基于嵌入的方法和 BERT 等预训练语言模型的对比学习进行边缘搜索，并采用基于 BERT 微调的多标签边缘交叉编码器以及 GPT 系列、FLAN-T5 和 Llama 2 等大型语言模型进行边缘选择。我们评估了使用 SNOMED CT 本体和 MedMentions 实体链接基准创建的最新数据集上的方法。我们框架中的最佳设置使用了经过微调的预训练语言模型进行搜索，以及用于选择的多标签边缘交叉编码器。LLMs 的零 - shot 提示对于该任务仍然不足，因此我们提出了 LLMs 可解释指令调整以改进性能。我们的研究展示了预训练语言模型的优势，并突出了鼓舞人心的 LLMs 性能，这激发了未来的研究。

Feb, 2024

通过本体推理对大型企业语言模型进行微调

本文提出了一种新颖的神经符号体系结构，旨在利用本体推理的能力来构建针对任务和领域的特定语料库，以提高 LLM 微调的准确性。

Jun, 2023

BioLORD-2023: 融合 LLM 和临床知识图谱洞察的语义文本表示

我们在本研究中探讨了大型语言模型在补充生物医学知识图谱中的潜力，通过利用 UMLS 知识图谱和先进的大型语言模型，我们提出了一种新的先进方法，通过改进的对比学习阶段、新颖的自蒸馏阶段和权重平均化阶段，获得了生物医学概念和句子的高保真度表示。通过对 BioLORD 测试套件的严格评估和多样化的下游任务，我们证明了与以往先进技术相比的一致且显著的性能改进（例如，在 MedSTS 上提高了 2 点，在 MedNLI-S 上提高了 2.5 点，在 EHR-Rel-B 上提高了 6.1 点）。除了我们的新型英文生物医学模型外，我们还蒸馏并发布了与 50 多种语言兼容并在 7 种欧洲语言上进行了微调的多语言模型。我们最新的模型可以使许多临床流程受益，开启了生物医学语义表示学习在多种语言中发展的新途径，为全球的生物信息学研究人员提供了宝贵的工具。因此，我们希望看到 BioLORD-2023 成为未来生物医学应用的宝贵工具。

Nov, 2023

本体蕴含推理的语言模型分析

研究表明，虽然预训练语言模型对于自然语言推理方面的知识有比较好的编码能力，但其对于本体论的推断需要更多的背景知识，而且在给定少量样本的情况下能够有效地进行推断。

Feb, 2023