Jun, 2024

生物医学基准中的药物名称对语言模型的出乎意料的脆弱性

TL;DR医学知识的上下文相关性需要在各种自然语言表达的语义等效短语中保持连贯的推理,尤其对于药物名称,患者通常使用品牌名称如 Advil 或 Tylenol 而非其通用等效物。在本研究中,我们创建了一个新的鲁棒性数据集 RABBITS,通过医生专家注释交换品牌和通用药物名称来评估在医学基准测试中的性能差异。我们在 MedQA 和 MedMCQA 上评估了开源和 API LLMs,发现了一致的性能下降范围为 1-10%。此外,我们确定了广泛使用的预训练数据集中测试数据污染可能是此脆弱性的潜在来源。所有代码可在此 https URL 获取,可在此 https URL 找到 HuggingFace 排行榜。