BriefGPT.xyz
大模型
Ask
alpha
关键词
backdoor mitigation
搜索结果 - 3
ACL
PromptFix: 通过对抗性提示调整进行少样本后门移除
通过对软标记以及对抗优化的使用,提出一种名为 PromptFix 的新型反后门策略,适用于自然语言处理模型中的少样本情景,并通过各种后门攻击实验证实了该方法的有效性以及在存在领域转移时的性能。
PDF
a month ago
基于特征方差的鲁棒知识蒸馏:抵抗带后门的教师模型
RobustKD 是基于特征差异的鲁棒知识蒸馏方法,通过压缩模型并减少学生模型和教师模型之间的特征差异,实现了学生模型的性能和后门缓解的双重目标。
PDF
a month ago
通用后门缓解和测试时间检测的改进激活剪裁
深度神经网络容易受到后门攻击,通过限制内部激活层的界限,可以有效减轻此类攻击及提高分类性能,在测试时还可以检测和校正激活界限网络与原网络之间的输出差异。
PDF
a year ago
Prev
Next