利用大型语言模型进行基于 OntoClean 的本体修正
通过自动将自然语言句子转化为描述逻辑,我们使用大型语言模型将自然语言句子转换为 OWL 功能语法,用于丰富本体论,并通过人类监督的方式提供该工具作为 Protge 插件。
Jul, 2023
通过注入本体知识来改进嵌入式大语言模型(embedding-LLM),本研究利用广泛的本体使用和基于对照学习框架,通过医学疾病本体的生物医学文档,展示了提高嵌入式 LLM 在描述疾病领域中的相似性评估能力的实验结果。
May, 2024
通过查询大型语言模型,我们提出了一种用于自动构建给定领域概念层级的方法,我们使用 OpenAI 的 GPT 3.5 将该方法应用于不同领域,实验证明 LLM 在构建概念层级方面具有相当的帮助。
Sep, 2023
研究调查了最近的生成式大型语言模型(如 GPT 系列和 Flan-T5)在本体对齐中的适用性,以识别本体之间的概念等价映射。初步发现表明,通过精心设计的框架和提示,LLMs 具有超越现有本体对齐系统(如 BERTMap)的潜力。
Sep, 2023
该研究将大型语言模型(LLMs)如 GPT-4 与传统自然语言处理(NLP)任务相结合,利用思维链(CoT)提示技术从 GPT-4 中提取知识,并应用于改进较小模型 BERT 在命名实体识别(NER)任务中的效率和效果。通过采用两阶段训练过程,该方法在预训练阶段使用 GPT-4 标注数据,并结合蒸馏和原始人标注数据来完善模型。结果表明,我们的混合训练策略明显优于仅使用人工标注的模型,达到了更高的 F1 得分,并展示了在资源有限或封闭网络环境下的成本效益解决方案。研究还讨论了遇到的挑战,如 LLM 输出的可变性和偏向幻觉,提出了改进提示设计和注释选择的未来工作方向。我们的发现显示出 LLM 洞察力与传统 NLP 技术之间的有希望的协同作用,为更易于接近和强大的 NLP 应用铺平了道路。
Feb, 2024
通过对 200 个描述肺癌人样本的 NCBI BioSample 数据记录进行实验,评估 GPT-4 对于符合元数据标准的建议编辑能力,并通过同行评审过程计算了字段名 - 字段值对的符合精确度,发现辅助 GPT-4 以 CEDAR 模板的文本描述作为领域信息,从 79% 提高到 97%(p<0.01),结果表明 LLMs 与结构化知识库整合后,可以在自动化元数据管理中显示出希望。
Apr, 2024
本文介绍了一种基于大型语言模型的上下文学习方法,通过 GPT-3.5 和为主题元数据注释设计的提示,实现了自动元数据注释,在一些类别中表现出有前景的性能。
Oct, 2023
通过系统化分析大型语言模型的响应中的内在本体承诺,本文以 ChatGPT 3.5 为案例研究,探讨了这些模型尽管没有显性本体,在生成的文本中表现出的内在本体分类。本文提出了一种理解大型语言模型本体承诺的方法,通过定义本体为提供本文某些文本的本体承诺的理论来进行分析。我们调查了 ChatGPT 的本体假设并提出了一个系统化的解释,即 GPT 的顶层本体。其中包括一个可作为 OWL 文件获取的分类体系,以及关于本体假设(如关于其部分整体论或现在主义的假设)的讨论。我们展示了在某些方面 GPT 的顶层本体与现有的顶层本体非常相似。然而,由于 LLM 生成的文本具有灵活性,存在着本体过载、歧义和不一致性等重大挑战。
Apr, 2024
我们提出了 LLMs4OL 方法,利用大型语言模型(LLMs)进行本体学习(OL)。通过全面评估使用零训练样例提示方法,我们发现 LLMs 可以有效地应用其语言模式捕捉能力于 OL,该能力包括从自然语言文本中自动提取和结构化知识。评估涵盖了对三个主要的 OL 任务进行九种不同的 LLM 模型家族的评估,包括术语类型化,分类系统发现以及非分类关系的提取,并包含了 WordNet 中的词汇语义知识,GeoNames 中的地理知识以及 UMLS 中的医学知识等多种类型的本体知识。
Jul, 2023
本文分析了当前基础 LLM (ChatGPT) 与专门的预训练模型 (REBEL) 的联合实体和关系提取应用,以可持续发展文本为案例进行了多个实验,结果表明,使用先进的 LLM 模型可以提高从非结构化文本创建知识图谱的过程的准确性,并探索了使用基础 LLM 模型自动创建本体论的潜力,取得更相关和准确的知识图谱。
May, 2023