BriefGPT.xyz
Ask
alpha
关键词
post-training backdoor mitigation
搜索结果 - 1
通过校正神经激活分布进行后门缓解
这篇论文揭示和分析了后门攻击的一个重要特性:成功攻击会导致后门触发实例的内部层激活分布发生改变,与干净实例的分布不同。基于这一观察,作者提出了一种高效和有效的方法,通过使用逆向工程的触发器来纠正分布变化,从而实现后期训练的后门缓解。该方法不
→
PDF
a year ago
Prev
Next