May, 2020

深度学习模型中的盲后门

TL;DR研究人员提出了一种新的方法,通过破坏模型训练代码中的损失值计算来注入后门,用于展示比以前文献中更强大的后门类型,包括单像素和物理后门以及能将模型转换为隐蔽,侵犯隐私任务的后门,同时无需修改推理时输入。攻击是盲目的:攻击者无法修改训练数据,也无法观察他的代码执行,也无法访问生成的模型。攻击代码在模型训练过程中即时生成受污染的训练输入,并使用多目标优化技术来实现对主任务和后门任务的高准确性。研究人员还提出了如何规避任何已知防御措施的盲目攻击,并提出了新的防御措施。