Jan, 2024

揭示的弱点:对病理影像的多模式视觉语言模型进行对抗攻击

TL;DR本研究探讨了医学人工智能领域中 Vision Language 基础模型 PLIP 在有针对性对抗情况下的潜在脆弱性,通过利用 the Kather Colon 数据集的 7180 个 H&E 图像跨九种组织类型,我们使用 Projected Gradient Descent(PGD)对抗性攻击,刻意引发错误分类,结果显示 PLIP 的预测被篡改的成功率达到 100%,凸显其对对抗扰动的敏感性。对对抗性示例的定性分析探讨了解释性挑战,揭示了对抗操纵引发的预测微妙变化,这些发现对医学图像中的 Vision Language 模型的解释性、领域适应性和可信度提供了关键见解,突显了确保 AI 模型可靠性的强大防御的紧迫性。