- 解读后续离群检测器对于对抗鲁棒性的定义
研究检测和防御方法,以保护深度学习模型免受不符合预期数据、对抗性示例和逃避攻击的影响。
- MISLEAD:误导性地操作选定特征对逃逸攻击欺骗学习 Epsilon
我们提出了一种结合 SHapley Additive exPlanations(SHAP)进行特征重要性分析和创新的 Optimal Epsilon 技术进行逃逸攻击的方法,旨在解决机器学习模型中对抗性攻击导致的可靠性问题。通过对多种机器学 - 图像水印的转移攻击
提出了一种新的转移攻击方法,该攻击方法在无盒环境下对图像水印进行干扰,使得对手训练的多个替代水印模型无法检测到水印,同时也能规避目标水印模型检测。理论和实验证明了基于水印的 AI 生成图像检测器不具备抵抗干扰攻击的鲁棒性,即使攻击者无法访问 - AAAI差分隐私与对抗鲁棒机器学习:实证评估
使用敌对训练和差分隐私训练的组合,本研究探讨了针对同时攻击的防御方法。通过使用成员推断攻击来基准测试 DP-Adv 技术的性能,并实证显示该方法的隐私性与非鲁棒私有模型相当。此外,该研究还强调了在动态训练范式中探索隐私保证的需求。
- PPR: 强化人脸识别系统抵御躲避攻击并保持冒名攻击
通过预训练修剪恢复攻击(PPR)的方法,在维持冒名顶替攻击的性能的同时,提高了逃避攻击的表现。我们利用对抗性示例修剪,将一部分对抗扰动设为零,从而有效地提升了对抗面部示例的逃避性能。实验结果证明了我们提出的攻击方法的优越性能。
- 对抗规避攻击的攻击树分析
该研究提出了一种使用攻击树分析逃避攻击风险的量化评估方法,通过引入深度学习和传统攻击节点来表示逃避攻击的各种特征,并提出了构建攻击树的系统性构建过程,最后通过实验验证了该方法的多功能性和有效性。
- MalPurifier:针对逃避攻击的对抗净化增强 Android 恶意软件检测
机器学习在 Android 恶意软件检测方面取得了显著应用,然而最近的研究揭示了基于机器学习的检测系统对规避攻击的固有弱点。本文介绍了一种新型的 Android 恶意软件检测方法,MalPurifier,它利用敌对净化以独立消除扰动,从而在 - 熊猫还是不是熊猫?通过交互式可视化理解对抗攻击
通过与 AML 学习者和教师的设计研究,引入 AdvEx 作为一个多层次交互式可视化系统,全面呈现对新手 AML 学习者的不同图像分类器的逃避攻击的性质和影响,我们定量和定性评估了 AdvEx,并通过用户研究和专家访谈的两部分评估结果表明, - ICCVOMG-ATTACK:自监督的流形上生成可传递的回避攻击
我们引入了一种自我监督、计算成本低的方法,用于在未知黑盒设置中生成对抗性样本,这些样本通过适应表示学习技术生成,并鼓励与数据分布相似,从而与受攻击的模型相关性更高,在攻击训练模型时与最先进方法相当有效,在攻击未知模型时则显著更有效,表明在针 - 面向现实世界的定制健壮性通用框架:基于群体的健壮性
本文旨在通过定义一种补充现有度量方式的量化指标 —— 群体韧性,更好地评估模型在特定攻击情境下的表现并提出了两种损失函数、三种新的攻击策略,证明了该指标对于区分对特定威胁模型的脆弱性有更好的效果,并提出了一种防御方法,可以将群体韧性提高 3 - 攻击方式太过低级:对于对抗性可迁移性的攻击方案进行形式化
本文研究在机器学习模型中对抗样本的转移性,提出了 DUMB 攻击模型并设计了测试环境验证实验,证明在数据源、平衡度和模型架构不匹配时,攻击的效果会受到严重影响。
- Eigenpatches -- 从主成分得到的对抗性 Patch
本文分析了 375 个生成的对抗补丁,并计算了其主成分,结果表明这些成分的线性组合可以成功地欺骗目标检测器。
- 用于鲁棒树集的可验证学习
本文提出了一种叫做可验证学习的方法用以解决机器学习模型在测试阶段对抗攻击的安全验证问题,并提出了一种新的训练算法以自动学习人工决策树集合。在公开数据集上的实验结果证实,这种方法可以在标准的商业硬件上在几秒钟内验证其使用我们算法训练的大规模分 - IMAP: 内在动机驱动的对抗策略
提出了一种名为 Intrinsically Motivated Adversarial Policy(简称 IMAP) 的策略,用于在无需了解受害者策略的情况下,有效地进行黑盒攻击,IMAP 利用基于状态覆盖、策略覆盖、风险和策略差异的四个 - 摘要评分的通用规避攻击
本研究针对自动摘要的评分问题进行了机器学习和逃避攻击,发现当前自动评分系统的鲁棒性较低,需要进一步改进。
- MM机器学习逃避攻击的解释引导诊断
本文介绍了一个新的框架,利用可解释的机器学习方法来指导高保真度评估机器学习逃避攻击,使用恶意软件和图像分类器进行综合评估,揭示了对抗样本与其上的对应扰动之间的关联差距,并展示了该方法对于评估机器学习模型鲁棒性的广泛使用。
- ICML通过傅里叶稳定性增强神经网络的鲁棒性
本文介绍了一种名为 “Fourier Stabilization” 的方法,使用傅里叶分析工具来设计抗拒逃避攻击的神经网络,提高了神经网络在多种安全检测环境下的鲁棒性,并证明这种方法与对抗性训练有效组成。
- SurFree: 快速无替代黑盒攻击
该文章介绍了使用几何学方法的黑盒决策攻击的分类器,SURFREE,通过精确指示分类器决策边界的几何属性,实现了超过之前攻击的查询次数的快速失真衰减和竞争优势。
- 影响函数对图神经网络的规避攻击
本研究提出了一种基于影响力的逃避攻击方法,用于攻击多层图神经网络,不需要知道其具体参数,在性能相当的情况下有 5-50 倍的速度提升。
- 对抗性特征选择抵御逃避攻击
该研究探讨了特征选择在对抗性环境下的安全性问题,并提出了一种面向对抗攻击的特征选择模型,以提高分类器的安全性。实验结果表明,该模型在垃圾邮件和恶意软件检测等应用场景具有较好的效果。