面向本体增强的大型语言模型表示学习
本研究探讨了将大型语言模型(LLMs)如 GPT-3.5 和 GPT-4 整合到本体修正过程中,特别关注 OntoClean 方法论。研究通过采用两种提示策略的 LLMs,证明了在标注过程中可以获得高准确性,并提出了开发插件软件以促进本体工具整合的潜力。
Mar, 2024
通过自动将自然语言句子转化为描述逻辑,我们使用大型语言模型将自然语言句子转换为 OWL 功能语法,用于丰富本体论,并通过人类监督的方式提供该工具作为 Protge 插件。
Jul, 2023
通过查询大型语言模型,我们提出了一种用于自动构建给定领域概念层级的方法,我们使用 OpenAI 的 GPT 3.5 将该方法应用于不同领域,实验证明 LLM 在构建概念层级方面具有相当的帮助。
Sep, 2023
我们提出了 LLMs4OL 方法,利用大型语言模型(LLMs)进行本体学习(OL)。通过全面评估使用零训练样例提示方法,我们发现 LLMs 可以有效地应用其语言模式捕捉能力于 OL,该能力包括从自然语言文本中自动提取和结构化知识。评估涵盖了对三个主要的 OL 任务进行九种不同的 LLM 模型家族的评估,包括术语类型化,分类系统发现以及非分类关系的提取,并包含了 WordNet 中的词汇语义知识,GeoNames 中的地理知识以及 UMLS 中的医学知识等多种类型的本体知识。
Jul, 2023
使用语言模型将从文本中提取的新概念插入本体的任务中,我们探索了一种三步骤的方法:边缘搜索,边缘形成和丰富,边缘选择。在所有步骤中,我们提出利用神经方法,其中我们应用基于嵌入的方法和 BERT 等预训练语言模型的对比学习进行边缘搜索,并采用基于 BERT 微调的多标签边缘交叉编码器以及 GPT 系列、FLAN-T5 和 Llama 2 等大型语言模型进行边缘选择。我们评估了使用 SNOMED CT 本体和 MedMentions 实体链接基准创建的最新数据集上的方法。我们框架中的最佳设置使用了经过微调的预训练语言模型进行搜索,以及用于选择的多标签边缘交叉编码器。LLMs 的零 - shot 提示对于该任务仍然不足,因此我们提出了 LLMs 可解释指令调整以改进性能。我们的研究展示了预训练语言模型的优势,并突出了鼓舞人心的 LLMs 性能,这激发了未来的研究。
Feb, 2024
我们在本研究中探讨了大型语言模型在补充生物医学知识图谱中的潜力,通过利用 UMLS 知识图谱和先进的大型语言模型,我们提出了一种新的先进方法,通过改进的对比学习阶段、新颖的自蒸馏阶段和权重平均化阶段,获得了生物医学概念和句子的高保真度表示。通过对 BioLORD 测试套件的严格评估和多样化的下游任务,我们证明了与以往先进技术相比的一致且显著的性能改进(例如,在 MedSTS 上提高了 2 点,在 MedNLI-S 上提高了 2.5 点,在 EHR-Rel-B 上提高了 6.1 点)。除了我们的新型英文生物医学模型外,我们还蒸馏并发布了与 50 多种语言兼容并在 7 种欧洲语言上进行了微调的多语言模型。我们最新的模型可以使许多临床流程受益,开启了生物医学语义表示学习在多种语言中发展的新途径,为全球的生物信息学研究人员提供了宝贵的工具。因此,我们希望看到 BioLORD-2023 成为未来生物医学应用的宝贵工具。
Nov, 2023
研究表明,虽然预训练语言模型对于自然语言推理方面的知识有比较好的编码能力,但其对于本体论的推断需要更多的背景知识,而且在给定少量样本的情况下能够有效地进行推断。
Feb, 2023