生物医学基准中的药物名称对语言模型的出乎意料的脆弱性

Jun, 2024

生物医学基准中的药物名称对语言模型的出乎意料的脆弱性

Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks

Jack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao...

TL;DR医学知识的上下文相关性需要在各种自然语言表达的语义等效短语中保持连贯的推理，尤其对于药物名称，患者通常使用品牌名称如 Advil 或 Tylenol 而非其通用等效物。在本研究中，我们创建了一个新的鲁棒性数据集 RABBITS，通过医生专家注释交换品牌和通用药物名称来评估在医学基准测试中的性能差异。我们在 MedQA 和 MedMCQA 上评估了开源和 API LLMs，发现了一致的性能下降范围为 1-10％。此外，我们确定了广泛使用的预训练数据集中测试数据污染可能是此脆弱性的潜在来源。所有代码可在此 https URL 获取，可在此 https URL 找到 HuggingFace 排行榜。

Abstract

medical knowledge is context-dependent and requires consistent reasoning across various natural language expressions of semantically equivalent phrases. This is particularly crucial for drug names, where patients

medical knowledge drug names rabbits dataset performance drop pre-training datasets

发现论文，激发创造

生物医学中的 LLMs：临床命名实体识别研究

该研究探讨了大型语言模型在医学领域中的应用，通过策略性地选择和设计提示语，增强模型在命名实体识别任务中的性能，并结合外部资源通过提示策略填补医学命名实体识别领域中的专业需求与通用语言模型之间的差距，最终提出的方法能够提高大型语言模型在医学命名实体识别任务中的 F1 分数。

Apr, 2024

利用大型语言模型进行天然界面与药理学数据库

药物开发中，药理学家需要进行各种任务，比如文献回顾、假设制定、实验设计和结果解释。在本文中，我们介绍了一种基于大型语言模型（LLM）的自然语言接口，用于与存储在数据库中的结构化信息进行交互。我们的实验证明了所提出框架的可行性和有效性。该框架可以广泛查询各种药品数据和知识库。

Jul, 2023

大型语言模型蒸馏药物推荐模型

利用大型语言模型（LLMs），本文提出了一种名为 LEADER 的新方法，通过创建适当的提示模板和特征级知识蒸馏技术，将现有的药物推荐方法转化为更加高效和精确的形式。

Feb, 2024

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了 MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

DrBenchmark：法国生物医学领域的大型语言理解评估基准

首次公开提供的法语生物医学语言理解基准 DrBenchmark，评估 8 种最新的预训练掩码语言模型 (MLMs) 的通用和生物医学特定数据上的性能，以及英语特定的 MLMs 来评估它们的跨语言能力。

Feb, 2024

MedFuzz: 大型语言模型在医学问答中的鲁棒性探索

使用对抗性方法 MedFuzz 对医学问题回答基准中的模型进行干扰，通过修改问题来迷惑大型语言模型 (Large Language Models, LLM)，检验其在违反基准假设时的性能泛化情况，并通过置换检验技术确保成功攻击的统计显著性。这些方法在更加真实的环境中为 LLM 的稳健运行提供了有希望的见解。

Jun, 2024

医疗领域中的大型语言模型：一项综合基准评估

评估医疗领域中多样化的大型语言模型在七个任务和十三个数据集上的综合性能

Apr, 2024

大规模语言模型、科学知识与真实性：一项抗生素发现的系统分析

本文研究了使用大型语言模型（LLMs）对话生物医学背景知识以及从大量的科学文献中提取信息的潜力，以抗生素发现为例，系统评估了 9 种最先进的模型在生成化合物定义和确定化合物 - 真菌关系方面的能力，并发现虽然最新模型在流畅度方面得到了改善，但其事实准确性仍然很低，而且模型存在偏向于过度呈现某些实体的问题。

May, 2023

MedConceptsQA -- 开源医学概念问答基准

我们介绍了 MedConceptsQA，这是一个专门用于医学概念问答的开放源码基准。该基准包含了不同词汇的各种医学概念问题：诊断、手术和药品。我们对该基准进行了使用各种大型语言模型的评估。我们发现，尽管经过医学数据的预训练，预先训练的临床大型语言模型在该基准上的准确性接近于随机猜测。然而，与临床大型语言模型相比，GPT-4 在零样本学习和少样本学习上的绝对平均改进分别达到了近 27% 和 37%。我们的基准为评估大型语言模型对医学概念的理解和推理提供了宝贵资源。我们的基准在此 https:// 网址中可供使用。

May, 2024

从初学者到专家：将医学知识建模到通用 LLM 中

本研究通过将预训练的通用大型语言模型精细调整为医学领域专家，并结合多种优化方法，包括注入通用医学知识、医学领域指导微调和特定医学任务适应性调整，成功提升了在医学领域的推理和应答能力。

Dec, 2023