Jun, 2024

MedFuzz: 大型语言模型在医学问答中的鲁棒性探索

TL;DR使用对抗性方法 MedFuzz 对医学问题回答基准中的模型进行干扰,通过修改问题来迷惑大型语言模型 (Large Language Models, LLM),检验其在违反基准假设时的性能泛化情况,并通过置换检验技术确保成功攻击的统计显著性。这些方法在更加真实的环境中为 LLM 的稳健运行提供了有希望的见解。