APBench: 一种用于可用性毒化攻击和防御的统一基准
用于训练数据的小扰动攻击机器学习模型的可用性数据中毒攻击有可能泛化到不同的学习算法和范式,并提出了可转移的中毒攻击来生成高频中毒扰动,该攻击具有显著改善的可转移性。
Oct, 2023
本文研究了数据污染和后门攻击对训练数据的影响,发现数据污染是常见的安全威胁之一,但目前还不清楚这些攻击方法的危害程度,我们通过开发标准基准来促进未来工作的公平比较。
Jun, 2020
我们引入了一种针对算法公平性的优化框架,并开发了一种基于梯度的毒化攻击方法,旨在在数据的不同群体之间引入分类偏差,我们实验性地表明,我们的攻击不仅在白盒环境中有效,特别是在黑盒情况下,也对目标模型有很大影响,我们相信我们的发现为完全新的针对算法公平性在不同场景中的对抗攻击定义铺平了道路,并且研究这些漏洞将有助于未来设计更加稳健的算法和对策。
Apr, 2020
本论文重点评估了代表聚合防御的 Deep Partition Aggregation 的实用方面,包括效率、性能和鲁棒性,通过使用 ImageNet 进行评估,提供了有价值的洞见,以缓解数据中毒的威胁。
Jun, 2023
本文综述了机器学习分类器训练中的数据污染攻击的安全漏洞,并介绍了几种可行的检测和缓解机制,比较了不同方法的性能以及固有属性,如可靠性、隐私和可解释性。同时,提供了未来研究方向的参考。
Feb, 2022
本文研究了深度图像分类模型中毒的问题,提出了两种防御方案进行后处理,利用少量的受信任的图像标签对修复模型,防御效果优于现有的方案,并指出了检测 / 鲁棒性权衡关系和攻击的适应能力问题。
May, 2023
对使用用户提供数据训练的机器学习系统进行的数据毒化攻击问题进行了探讨,构建了数据异常移除后采用经验风险最小化的防御方法下的攻击损失上限并给出了攻击方法,检验了在 MNIST-1-7,Dogfish 数据集上其防御能力较强,而在 IMDB 情感数据集上加入 3% 的毒化数据可将测试误差从 12% 提升至 23%。
Jun, 2017
该研究报告通过文献综述,提供了关于推荐系统中毒攻击和对策的新分类法,并对文献中描述的 30 多种攻击进行了整理。此外,对于检测和 / 或预防毒攻击的 40 多种对策进行了评估,评估了它们对特定类型攻击的有效性。该综述为保护推荐系统抵御毒攻击提供了一个参考点,并对领域中的未解决问题和未来研究方向进行了讨论。
Apr, 2024
该研究介绍了自回归(AR)中毒的方法,可以生成具有毒性的数据,而不需要访问更广泛的数据集,比起现有的不可学习方法,我们的 AR 毒药更加抵抗对抗训练以及强数据扩充等常见的防御。
Jun, 2022
本文对过去 15 年来关于机器学习中中毒攻击和防御的 100 多篇论文进行了全面的系统化概括和批判性点评,主要关注于视觉应用程序,并讨论了当前的限制和开放性的研究问题。
May, 2022