BriefGPT.xyz
大模型
Ask
alpha
关键词
benchmark assumptions
搜索结果 - 1
MedFuzz: 大型语言模型在医学问答中的鲁棒性探索
使用对抗性方法 MedFuzz 对医学问题回答基准中的模型进行干扰,通过修改问题来迷惑大型语言模型 (Large Language Models, LLM),检验其在违反基准假设时的性能泛化情况,并通过置换检验技术确保成功攻击的统计显著性。
→
PDF
a month ago
Prev
Next