检测预训练编码器中的后门
本研究研究自监督学习中的后门攻击,提出了 BadEncoder,它将后门注入预训练的图像编码器中,同时保留了下游分类器的准确性。对不同数据集的实验结果表明,这种攻击方法具有高攻击成功率,而常规的防御方法并不能有效防御。
Aug, 2021
该论文介绍了一种针对计算机视觉中的自监督学习的动态隐形后门攻击方法 GhostEncoder,通过图像隐写术将隐藏信息编码到良性图像中,生成后门样本,并在操纵数据集上微调预训练图像编码器以注入后门,使得建立在被植入后门编码器的下游分类器在目标任务中继承后门行为,实现对图像的高成功率欺骗。GhostEncoder 还能抵抗包括 STRIP、STRIP-Cl 和 SSL-Cleanse 在内的最先进的防御方法。
Oct, 2023
本文提出了一种名为 StolenEncoder 的攻击方法,通过该方法可以以比从头开始训练更短的时间和资源窃取目标编码器,本文还探究了三种抵御此攻击的方法。
Jan, 2022
该论文研究发现深度神经网络易受后门攻击影响,通过自监督学习和半监督微调等方法提出了一种解决方案,通过将原来的训练过程分解成三个阶段,有效地减轻了后门攻击带来的威胁。
Feb, 2022
该论文提出了 AdvEncoder,这是第一个基于预训练编码器生成无下游限制通用对抗样本的框架,在只输出特征向量而非分类标签的情况下,通过高频成分信息和生成式攻击框架构造对抗性扰动 / 补丁来攻击下游任务。实验证明,攻击者可以成功地攻击下游任务,而不需要了解预训练数据集或下游数据集。
Jul, 2023
本文研究了自编码器和生成对抗网络中的后门攻击,提出了第一个能够控制解码或生成图像的后门攻击,并展示了攻击者成功地对模型执行的能够返回目标输出的自编码器和在激活后能够生成与原模型数据分布不同的数据的生成对抗网络。
Oct, 2020
提出了一种新颖的后门攻击方法,通过使用预训练的受害模型从干净图像中提取低级和高级语义特征,并基于通道注意力生成与高级特征相关联的触发模式,然后使用编码器模型生成受污染的图像,同时维持对后门防御的鲁棒性,实验结果表明,该攻击方法在三个知名图像分类深度神经网络上取得了高攻击成功率,同时具有很好的隐秘性。
May, 2024
介绍了一种针对文本引导的生成模型的后门攻击,揭示了文本编码器的实际修改可能性和潜在威胁,并通过在提示中插入单个字符触发器的方式,演示了攻击的高有效性。同时,还讨论了如何强制让编码器从忘记一些相关的概念,以便更加安全地生成图像。
Nov, 2022
本文提出了一种名为 MIMIC 的互信息引导的后门缓解技术,通过知识蒸馏从潜在后门编码器中提取干净的学生编码器,以减轻后门攻击并同时保持编码器性能。在自我监督学习中对两个后门攻击进行的评估表明,MIMIC 可以显著降低攻击成功率,仅利用不到 5% 的干净数据,超过七种最先进的后门缓解技术。
Jun, 2024