- PureEBM: 通过能量模型中间运行动力学实现的通用毒素净化
数据污染攻击对机器学习模型的完整性构成重大威胁,本研究引入了一种通用数据净化方法,通过应用一个基于能量的模型(EBM)的普适性随机预处理步骤来保护自然训练的分类器免受恶意攻击。
- KDD快速 FedUL:具备可证明偏差韧性的无需训练的联邦去学习
为了保护训练数据的隐私权,研究提出了一种适用于联邦学习的定制反学习方法,Fast-FedUL,它能够完全消除重新训练的需要,并通过对目标客户在每一轮中对全局模型的影响进行细致分析,开发出一种算法系统地从训练模型中移除目标客户的影响,而保留非 - ACLSEEP: 培训动力为减轻后门污染攻击而进行潜在表示搜索
通过利用训练动态识别有毒样本并进行标签传播以提高召回率,我们提出了一种新颖的防御机制,有效降低了多种后门攻击的成功率,并保持了对干净测试集高准确度的分类。
- 精确引导方法应对联邦学习中的数据投毒攻击
FedZZ 通过使用基于区域的偏离更新(ZBDU)机制来有效对抗联邦学习中的数据污染攻击,同时还引入了一种精确引导的方法来主动对客户端集群进行特征化,从而帮助识别和丢弃服务器上的恶意更新。在对 CIFAR10 和 EMNIST 这两个广泛认 - 利用脏标签翻转攻击的反标签倒钩方法
通过使用脏标签技术 - ' 标签对标签 ',在选定的与目标类别相关的数据模式中插入触发器(拍手声),我们提出了一种名为 'DirtyFlipping' 的后门攻击,从而实现了隐秘的后门。
- 非光滑隐式微分:确定性和随机收敛速率
我们研究了参数化不可微收缩映射的不动点导数的高效计算问题,这个问题在机器学习中有广泛应用,包括超参数优化、元学习和数据污染攻击。我们分析了两种常见方法:迭代微分(ITD)和近似隐式微分(AID)。在非光滑环境下的一个关键挑战是链式法则不再成 - AI 生成代码的安全隐患:通过取消修复代码来破坏程序
基于人工智能的代码生成器在帮助开发人员从自然语言中编写软件方面起到了重要作用。本文提出了一种新颖的数据污染攻击,其影响是生成易受攻击的代码。我们对这些攻击对代码生成的最新模型的影响进行了广泛评估,并讨论了潜在的解决方案。
- 计算机网络中的数据污染攻击暴露下的联邦学习漏洞
数据污染攻击对于计算机网络领域的严重性进行了实证研究,发现 Label Flipping 攻击易于检测,而 Feature Poisoning 攻击难以被察觉,证明了后者在欺骗服务器方面的重要性。
- 在指导调整期间学习对大型语言模型进行毒化
通过设计一种新的数据污染攻击,本研究进一步识别了 LLMs 中的安全风险,并提出了一种梯度引导的后门触发器学习方法,以高效地识别对手的触发器,并确保对传统防御的逃避,同时保持内容完整性。
- 预训练特征提取器的不可区分数据毒化攻击
在这篇论文中,我们研究了预训练特征提取器应用于后续任务时的数据污染攻击,主要包括输入空间攻击和特征目标攻击两种类型,实验结果表明后者对迁移学习更具威胁性。
- 评审引入的模型无关配置注入攻击对推荐系统的影响
通过引入产品的文本评论以提高生成质量,我们提出了一种名为 R-Trojan 的新型攻击框架,将攻击目标表述为优化问题,并采用定制的基于转换器的生成对抗网络 (GAN) 进行求解,从而产生高质量的攻击性用户配置文件。在黑盒设置下对各个受害者推 - 博弈论非学习样本生成器
从博弈论的角度研究无法学习的样本攻击,将其形式化为非零和斯塔克尔伯格博弈,证明了博弈均衡存在并提出了一种新的攻击方法,该方法可以有效地毒害模型并适用于各种场景。
- PACOL:针对连续学习者的攻击
持续学习系统容易受到恶意误导,本文提出了一种新的持续学习过程中的数据污染攻击类别,命名为 PACOL,通过实验展示了标签翻转和新的敌对污染攻击(PACOL)对持续学习系统的影响,评估了基于生成重放和正则化的持续学习方法对攻击方法的脆弱性,并 - 基于声誉的联邦学习防御策略在脑电图信号分类中的应用
该研究提出了一种基于声誉的威胁缓解框架,针对联邦学习中的脑电图(EEG)信号分类的潜在安全威胁进行防御。实验证明该框架在 EEG 信号分类方面表现良好,同时降低了与安全威胁相关的风险。
- 特定提示的文本到图像生成模型的毒化攻击
通过对海量训练数据集的文本到图像生成模型进行训练数据污染,本研究表明可以成功进行生成模型的污染攻击,通过优化的 Prompt-specific Nightshade 攻击,可以使用少于 100 个毒样本破坏生成模型的稳定扩散,并提出将 Ni - 健康有影响力的噪声训练以抵御数据投毒攻击
基于影响函数的健康影响噪声训练 (HINT) 是一种高效而强大的方法,用于防御数据中毒攻击,通过使用影响函数构造有助于加固分类模型的健康噪声,显著减少对测试数据的泛化能力影响,该方法在部分训练数据修改时也能有效执行,经过综合评估,HINT - 分析 SplitFed Learning 中的漏洞:评估对数据投毒攻击的鲁棒性
该研究是在分布式协作机器学习中对数据投毒攻击影响进行早期研究,提出了针对 SplitFed Learning 的三种新型攻击策略:非定向攻击、定向攻击和基于距离的攻击。通过对心电图信号分类和自动手写数字识别两个案例研究进行了一系列攻击实验, - 基于降噪自编码器的防御蒸馏作为对抗鲁棒性算法
本文提出了一种结合了防御蒸馏机制和去噪自动编码器(DAE)的新方法,旨在通过识别和重构有毒的对抗性输入来降低蒸馏模型对毒性攻击的敏感性从而防御深度神经网络 (DNNs) 的对抗性攻击。实验结果表明,该方法成功地识别和重构了有毒的输入,同时也 - 知识图谱表示学习的对抗鲁棒性
知识图谱是企业应用中智能决策所必需的关于世界事实知识的概念关系,学习知识图谱嵌入(KGE)模型可以有效地推断新知识。然而,该论文指出,现有的 KGE 模型容易受到数据污染攻击,在预测任务中存在安全漏洞,因此提出了两种新颖的数据污染攻击方法, - 用于数据污染的自回归扰动
该研究介绍了自回归(AR)中毒的方法,可以生成具有毒性的数据,而不需要访问更广泛的数据集,比起现有的不可学习方法,我们的 AR 毒药更加抵抗对抗训练以及强数据扩充等常见的防御。