BriefGPT.xyz
Nov, 2024
机器学习模型中的无知防御:无检测地移除后门
Oblivious Defense in ML Models: Backdoor Removal without Detection
HTML
PDF
Shafi Goldwasser, Jonathan Shafer, Neekon Vafa, Vinod Vaikuntanathan
TL;DR
本研究解决了机器学习模型中存在的后门攻击问题,提出了一种无需检测后门的移除策略。通过随机自我可约性的方法,作者证明了在某些情况下可以有效减轻或移除后门,从而提高模型的安全性。研究表明,当真实标签接近特定函数时,可以实现全局和局部的后门减轻,具有重要的应用潜力。
Abstract
As society grows more reliant on
Machine Learning
, ensuring the
Security
of
Machine Learning
systems against sophisticated attacks becomes
→