语言模型能成为医学知识库吗？

EMNLPSep, 2021

Can Language Models be Biomedical Knowledge Bases?

Mujeen Sung, Jinhyuk Lee, Sean Yi, Minji Jeon, Sungdong Kim...

TL;DR通过创建生物医学知识三元组的基准测试 BioLAMA，研究了预训练语言模型是否可用作具有生物医学特定领域知识的知识库。发现在近期提出的探测方法下，生物医学语言模型可以在检索生物医学知识方面取得 18.51% 的精确度，但多数预测与无主题的提示模板高度相关，因此限制了它们作为特定领域知识库的能力。

Abstract

pre-trained language models (LMs) have become ubiquitous in solving various natural language processing (NLP) tasks. There has been increasing interest in what knowledge these LMs contain and how we can extract that knowledge, treating LMs as →

pre-trained language models biomedical factual knowledge knowledge bases probing methods biolama benchmark

发现论文，激发创造

利用预训练语言模型和电子健康记录背景提取生物医学事实知识

通过在 EHR 笔记上下文中添加提示，我们设计了并验证了一系列实验，用于实现动态上下文下的生物医学语言模型内置知识库的任务。我们的实验表明，这些语言模型所具有的知识可以从 EHR 笔记的噪声知识中区分出正确的知识，这种区分能力也可以作为一个新的度量来评估模型所具有的知识量。

Aug, 2022

语言模型作为知识库的综述

本文回顾了最近关于使用预先训练的自然语言处理语言模型作为知识库的文献，提出了应该具备的一些方面，探讨了这种方法相较于传统知识库的优势在于无需人工监督进行的无监督学习。

Apr, 2022

使用知识优化生物医学预训练语言模型

提出 KeBioLM 这一生物医学语言 pretrained language model，该模型明确利用了来自 UMLS UMLS knowledge bases 知识库的知识，取得了名词实体识别和关系提取的不错效果。

Apr, 2021

生物医学领域的预训练语言模型：一项系统调查

本篇论文综述了近期预训练语言模型在生物医学领域的研究进展及其在生物医学下游任务中的应用，提出了现有生物医学 PLMs 的分类及其在下游任务中的应用，讨论了其限制与未来发展趋势。

Oct, 2021

基于基准生物医学文本处理任务的大规模语言模型全面评估

最近，大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而，尽管在各种任务中取得了成功，但以前的研究尚未调查它们在生物医学领域的能力。为此，本文旨在评估 LLMs 在基准生物医学任务中的性能。为此，我们对 26 个数据集中 6 个不同生物医学任务的 4 种流行 LLMs 进行了全面评估。据我们所知，这是第一次在生物医学领域对各种 LLMs 进行广泛评估和比较。有趣的是，基于我们的评估结果我们发现，在具有较小训练集的生物医学数据集中，零次矫正的 LLMs 甚至在效果上超过了当前最先进的生物医学模型。这表明，在大型文本语料库上进行预训练使 LLMs 在生物医学领域具有了相当专业的能力。我们还发现，在所有任务中没有单个 LLM 能够胜过其他 LLMs，不同 LLMs 的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比，它们的性能仍然相当差，但我们的研究结果表明，LLMs 在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。

Oct, 2023

LLM2KB：利用调整指导上下文感知的大型语言模型构建知识库

使用大型语言模型构建知识库的 LLM2KB 系统有不同于基础模型的参数紧凑的注入模型，通过 LoRA 技术调整指令以便使用 Wikipedia 页面上下文实体，并在 LM-KBC 挑战中取得了 0.6185 的平均 F1 得分。

Aug, 2023

运用适配器模块和知识图谱拓宽生物医学语言模型的知识增强

本文介绍了一种使用轻量级适配器模块将结构化的生物医学知识注入到预训练语言模型中的方法，并对该方法在三个下游任务中的性能进行了测试和分析。

Dec, 2023

大规模语言模型、科学知识与真实性：一项抗生素发现的系统分析

本文研究了使用大型语言模型（LLMs）对话生物医学背景知识以及从大量的科学文献中提取信息的潜力，以抗生素发现为例，系统评估了 9 种最先进的模型在生成化合物定义和确定化合物 - 真菌关系方面的能力，并发现虽然最新模型在流畅度方面得到了改善，但其事实准确性仍然很低，而且模型存在偏向于过度呈现某些实体的问题。

May, 2023

评估语言模型用于知识库补全

本文介绍了一种更具挑战性的基准数据集和方法，用于评估语言模型在无监督知识库补全方面的潜力，并发现了语言模型在补全 Wikidata 中 nativeLanguage、usedLanguage 和 citizenOf 等关系方面表现出强大的泛化能力。

Mar, 2023

通用到医疗应用的大型语言模型调查：数据集、方法论和评估

大型语言模型（LLMs）在各种自然语言处理任务中表现出令人惊讶的性能。最近，结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs，并提供了指导各种医学应用的 LLMs 发展的方法。

Jun, 2024