Feb, 2024

基于第一原理的架构神经后门

TL;DR本研究提出了一种检测神经网络架构中的后门威胁的方法,并针对性地构建了一个可用于无人监督下攻击神经网络架构的任意触发器检测器,对常见的模型定义中的可疑组件进行后门检测困难性的用户研究发现,ML 开发者在 37% 的情况下只能识别常见模型定义中的后门,而令人惊讶的是他们在 33% 的情况下更喜欢带后门的模型,最后讨论了对抗神经网络架构后门的防御策略,强调了保障机器学习系统完整性所需的强大而全面的防御措施。