本研究探讨了将大型语言模型(LLMs)如 GPT-3.5 和 GPT-4 整合到本体修正过程中,特别关注 OntoClean 方法论。研究通过采用两种提示策略的 LLMs,证明了在标注过程中可以获得高准确性,并提出了开发插件软件以促进本体工具整合的潜力。
Mar, 2024
使用大型语言模型 MapperGPT 进行术语资源的对齐和实体映射,在结构和词汇信息的基础上,与高检索率的方法相结合,能够显著提高准确性,超过 LogMap 等现有方法。
Oct, 2023
大语言模型通过指导文本对句子进行标记涉及了利用上下文示例的广泛语言模型,根据我们的简单评估方法,我们发现开源语言模型与领先的专有 API 之间在概念理解方面存在显著差距。
Nov, 2023
通过使用大型语言模型 (LLMs) 进行实体匹配,我们对可托管的 LLMs (如 GPT3.5 和 GPT4) 以及基于 Llama2 的开源 LLMs 进行了评估,在零 - shot 场景和有任务特定训练数据的场景中比较了不同的提示设计以及模型在零 - shot 场景中的提示敏感度。根据实验结果,我们发现 GPT4 在没有任务特定训练数据的情况下在三个基准数据集上优于精调的 PLMs (RoBERTa 和 Ditto),达到约 90% 的 F1 分数,而在上下文学习和规则生成方面,除了 GPT4 之外,所有模型都从这些技术中受益(平均 F1 分数提高了 5.9% 和 2.2%),大多数情况下 GPT4 无需额外的指导。
通过基于生成型大型语言模型(LLM)的通用文本到文本学习架构和提示调优,解决主要的临床自然语言处理(NLP)任务,并提供了最新的性能。
Dec, 2023
使用语言模型将从文本中提取的新概念插入本体的任务中,我们探索了一种三步骤的方法:边缘搜索,边缘形成和丰富,边缘选择。在所有步骤中,我们提出利用神经方法,其中我们应用基于嵌入的方法和 BERT 等预训练语言模型的对比学习进行边缘搜索,并采用基于 BERT 微调的多标签边缘交叉编码器以及 GPT 系列、FLAN-T5 和 Llama 2 等大型语言模型进行边缘选择。我们评估了使用 SNOMED CT 本体和 MedMentions 实体链接基准创建的最新数据集上的方法。我们框架中的最佳设置使用了经过微调的预训练语言模型进行搜索,以及用于选择的多标签边缘交叉编码器。LLMs 的零 - shot 提示对于该任务仍然不足,因此我们提出了 LLMs 可解释指令调整以改进性能。我们的研究展示了预训练语言模型的优势,并突出了鼓舞人心的 LLMs 性能,这激发了未来的研究。
Feb, 2024
通过查询大型语言模型,我们提出了一种用于自动构建给定领域概念层级的方法,我们使用 OpenAI 的 GPT 3.5 将该方法应用于不同领域,实验证明 LLM 在构建概念层级方面具有相当的帮助。
Sep, 2023
利用历史记录,将大型语言模型(LLM)应用于制药生产调查,提取特定信息并进行语义搜索。
Apr, 2024
基于大型语言模型(LLMs)的研究和应用在生物信息学领域有着巨大潜力和效力,该研究通过分析各种关键生物信息学任务,证明了 LLMs(如 GPT 变体)在给定适当提示的情况下可以成功处理大多数任务,同时也分析了在复杂生物信息学任务中的局限性。
通过自动将自然语言句子转化为描述逻辑,我们使用大型语言模型将自然语言句子转换为 OWL 功能语法,用于丰富本体论,并通过人类监督的方式提供该工具作为 Protge 插件。
Jul, 2023