Nov, 2024

机器学习模型中的无知防御:无检测地移除后门

TL;DR本研究解决了机器学习模型中存在的后门攻击问题,提出了一种无需检测后门的移除策略。通过随机自我可约性的方法,作者证明了在某些情况下可以有效减轻或移除后门,从而提高模型的安全性。研究表明,当真实标签接近特定函数时,可以实现全局和局部的后门减轻,具有重要的应用潜力。