- BDetCLIP:多模态提示对照测试时后门检测
通过对类描述文本和图像之间的余弦相似度分布差异进行对比,我们提出了 BDetCLIP,一种用于检测植入后门样本的创新测试时间后门检测方法,该方法相对于现有的后门检测方法在效果和效率方面都具有优势。
- UFID: 一个统一框架用于扩散模型上的输入级后门检测
为了缓解背景肃清攻击的威胁,本研究提出了一个针对扩散模型的统一输入层背景肃清检测框架(UFID),它通过扩散模型的观察和理论因果分析进一步验证。广泛的实验结果表明,该方法在检测效果和运行效率方面表现出卓越的性能。
- 关于机器学习后门检测作为一种假设检验问题的 (不) 可行性
我们引入了一个形式化的统计定义,用于分析机器学习系统中后门检测问题的可行性,为我们的定义的实用性和适用性提供了证据。我们的工作的主要贡献是后门检测的一个不可能性结果和一个可实现性结果。我们证明了一项无饭票定理,证明了通用(无敌手意识)的后门 - TEN-GUARD: 张量分解用于深度神经网络中的后门攻击检测
这篇论文介绍了一种新的后门检测方法,它使用了两种张量分解方法应用于网络激活,相对于现有的检测方法具有多种优势,包括能够同时分析多个模型,适用于各种网络架构,对于改变网络行为的触发器不做任何假设,并且计算效率高。在 MNIST 手写数字数据集 - Elijah:通过分布变化消除扩散模型中注入的后门
我们提出了第一个扩散模型的后门检测和清除框架,通过对数百种扩散模型进行评估,实验证明我们的方法可以几乎百分之百地检测出后门,并将后门效果减少到接近零,而不明显损害模型的效用。
- LMSanitator: 防御无关任务后门的提示调整
通过反向任务 - 不可知背门攻击的矢量预定义以避免调整反向触发器,LMSanitator 实现了更好的收敛性能和背门检测准确性,同时利用 prompt-tuning 的特性在推断阶段进行准确快速的输出监视和输入净化。
- XGBD: 说明引导的图形后门检测
我们提出了一种基于解释的后门检测方法,利用拓扑信息来检测后门样本,通过训练一个辅助模型,将图样本输入模型,并采用解释方法将模型预测归因于一个重要的子图,通过观察到后门样本和干净样本的不同归因分布,解释子图可以作为更具有辨别性的特征来检测后门 - 序列到序列模型下的后门学习
本文针对输出空间无限离散的 seq2seq 模型做了后门攻击的研究,发现只需注入 0.2% 的样本,即可成功使模型生成指定关键词和完整句子,使用 Byte Pair 编码技术可以创建多个新的后门,通过机器翻译和文本摘要的实验验证了该方法攻击 - CVPR通过强化平滑分类器实现单张图像后门反演
通过一张图像进行后门倒置:通过构建平滑的后门分类器,并对目标类进行引导图像合成以显示后门模式的方法中,提出了 SmoothInv 方法,它不需要通过掩模变量显示地建模后门,也不需要任何复杂的正则化方案,实现了从单个图像恢复后门触发器,并且能 - 跨多种深度学习范式的强大后门数据检测
研究表明,大多数现有的后门检测方法在不同的攻击和毒害比率上的性能存在显著差异,并且在最先进的干净标签攻击下都失败了。提出了一种新的检测方法 ASSET,它在端到端 SL 设置中优于现有方法,并提供了第一款针对 SSL 和 TL 的实用后门防 - AAAI应用矩阵分解于深度网络权重检测计算机视觉后门攻击
本研究提出了一种使用独立向量分析(IVA)和机器学习分类器从预训练 DNN 权重中提取特征的后门检测新方法,无需训练数据,适用于各领域,对各种网络架构均适用,且高度可扩展。通过在两个计算机视觉数据集上进行图像分类和目标检测,我们证明了该方法 - 选择性遗忘:关于在感染木马的机器学习模型中高效、高保真、盲目地抑制后门效应
本篇论文提出了一种名为 SEAM 的技术,能够在少量干净数据的情况下迅速进行已植入后门的模型的遗忘,从而使主要任务得到恢复,并在图像处理和自然语言处理任务上进行了实验验证。
- 针对图神经网络后门攻击的可解释性防御
本文提出了第一种基于图神经网络(GNN)的后门攻击检测和防御方法,通过评估模型的透明度和不透明度,识别恶意样本,并利用其可解释性确定最显著的子图,从而减少成功攻击率。
- 竞争性强化学习中的后门检测与缓解
该论文提出了一种名为 PolicyCleanse 的方法来检测强化学习中的后门攻击,并设计了一种基于机器学习的方法来缓解检测出的后门攻击,实验证明该方法在各种类型的环境和智能体中优于现有后门缓解基线方法至少 3% 的胜率。
- 具有有限信息和数据的黑盒检测后门攻击
该论文提出一种基于黑盒模型的反向工程优化算法,用于检测深度神经网络中嵌入的恶意后门攻击,并通过检测结果进行有效的可靠预测,实验表明其可以有效地应对多种后门攻击。
- 通过 K-Arm 优化进行深度神经网络的后门扫描
本研究提出了一种基于多臂赌博策略的 K-Arm 优化方法来检测深度学习系统中的后门攻击,并成功在超过 4000 个模型上取得了领先的性能。
- 神经网络中的可扩展后门检测
该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击,该方法在实验中表现卓越,能完美地区分被套件攻击的模型和纯模型。
- 通过激活聚类检测深度神经网络的后门攻击
本文提出了一种新的神经网络后门检测和修复方法,经过广泛的实验结果证明了其对文本和图像分类的有效性。该方法是针对机器学习训练数据可能不可信,恶意攻击者可能通过植入精心制作的样本来攻击系统的现实情况,是首个不需要可验证和可信数据集即可检测和修复 - 可追溯的约束语言的后门问题
本文对基于约束满足问题的多项式算法强后门检测问题进行了系统研究,特别是当目标属性是由多项式函数族定义的特定约束语言时,我们表明在多项式函数族是幂等的假设下,当参数为 r(约束元数)或 k(后门大小)时,问题不可能是 FPT,除非 P = N