Jun, 2024

医学中大型语言模型的对抗攻击

TL;DR大型语言模型(LLMs)在医疗应用中的整合为医学诊断、治疗建议和患者护理方面的进步提供了有希望的前景,然而,LLMs 对敌对攻击的易受攻击性构成了重大威胁,可能导致敏感医疗环境中的不良结果。本研究调查了 LLMs 在三个医学任务中面临的两种类型的敌对攻击的易受攻击性。利用真实的患者数据,我们证明了开源和专有的 LLMs 在多个任务中容易受到操纵。这项研究进一步揭示了针对特定领域任务的模型微调需要更多的敌对数据以实施有效的攻击,特别是对于更强大的模型而言。我们发现,虽然整合了敌对数据不会明显降低医学基准测试中的整体模型性能,但它确实会导致微调模型权重的明显变化,这表明检测和对抗模型攻击的潜在途径。这项研究强调了在医疗应用中确保 LLMs 安全有效部署的迫切需求,需要健全的安全措施和防御机制来保护 LLMs。