- ICCV鲁棒点云识别的基准测试与分析:防御对抗样本的诀窍
我们建立了一个全面、严格的点云对抗韧性基准,评估了韧性的影响,并通过对现有的防御方法进行广泛和系统的实验,提出了一种混合训练增强方法以提高对各种攻击的对抗韧性。
- 个性化联邦学习的后门攻击
在个性化联合学习场景中,本文首次研究了后门攻击,并发现部分模型共享的个性化联合学习方法仍然容易受到后门攻击的威胁,提出了三种后门攻击方法,并实验证明这些方法对两种经典个性化联合学习方法的有效性。同时,本文还评估了多种防御策略对这些攻击的有效 - 通过深度神经网络中的特征图测试方式消除后门特征图
通过 Feature Map Testing(FMT)检测和消除背门特征图,该方法能显著降低最复杂和看不见的攻击触发器的攻击成功率,并在维持模型性能的同时减轻背门攻击的影响。
- Fedward:非独立同分布数据下的灵活联邦后门防御框架
提出了一个灵活的联邦后门防御框架 (Fedward),使用放大幅度稀疏化(AmGrad)和自适应 OPTICS 聚类(AutoOPTICS)以及自适应剪裁方法来确保在保留性能的同时消除对抗性后门攻击 (FBA),实验结果表明 Fedward - 三维点云分类中的对抗攻击和防御:综述
本文旨在综述目前关于点云分类中的对抗攻击和防御技术的进展,包括对对抗攻击的原理和特点、最近几年的对抗攻击示例生成方法的总结和分析以及防御策略的分类(包括输入变换、数据优化和深度模型修改)。最后,本文阐述了这一领域中几个具有挑战性的问题和未来 - 大型语言模型对误导性污染的风险
本文研究了现代大型语言模型的潜在滥用问题,并探讨其对信息密集型应用的影响,特别是对开放式问题回答系统。我们建立了一个威胁模型,模拟了可能的滥用场景,证明了大型语言模型可以作为有效的错误信息产生器,导致开放式问题回答系统的性能显著降低。为了减 - 一种基于客户端更新的矩阵自回归的联邦学习拜占庭容错聚合方案
本研究提出了一种新的联邦学习聚合方案 FLANDERS,该方案采用矩阵自回归预测模型,将实际观测值与预测值进行比较,识别恶意客户端,从而提高对拜占庭攻击的鲁棒性,与现有防御策略相比,FLANDERS 在极端攻击情况下效果显著。
- 关于机器学习模型盗窃及其防御的综述:我知道去年你训练过什么
MLaaS 服务的 “模型窃取” 攻击威胁了提供商的知识产权,本文通过对该领域进行全面系统化的分类和比较,探索了相应的防御技术,并提出了攻击和防御策略的分类法和指南并分析哪些防御策略被当前攻击策略削弱
- IJCAI梯度反演综述:攻击、防御和未来方向
本研究对 GradInv 攻击进行全面调查,对现有攻击进行分类并总结新兴的对策,从数据隐蔽、模型改进和梯度保护三个方面探讨进一步的研究方向和开放性问题。
- ICML使用 DINO 训练的 Vision Transformers 中的对抗攻击和防御探索
本研究是关于自监督视觉转换网络 (DINO) 对抗攻击鲁棒性的分析,研究结果发现采用自监督方法学习的特征比监督学习更加鲁棒,并通过 fine-tuning 分类头部实现较好的抵御能力。
- 防范隐蔽后门攻击
本文介绍了一些针对语言处理模型的后门攻击进行的防御策略,并且实现了在提高模型对抗后门攻击效果的同时对模型本身影响较小的优化操作。
- 在德语明示和暗示字符级防御下对仇恨言论 BERT 分类器进行白盒攻击
评估德语仇恨言论数据集上 BERT 模型的对抗鲁棒性,并进行两个新的白盒字符级和单词级攻击,并比较两种新的字符级防御策略并评估它们的鲁棒性。
- ICML非参数双样本检验的敌对攻击与防御
研究发现,非参数两样本检验存在失效模式,并通过对抗攻击提出了相应的防御策略,包括理论证明攻击的隐蔽性边界和检验力的下限以及通过集成攻击框架和 max-min 优化技术提高非参数两样本检验的鲁棒性。
- AAAI自然语言生成中的后门攻击防护
本文研究神经网络模型中存在的后门攻击对自然语言生成系统的影响,并提出了相应的防御策略。通过测试生成目标给定源的后向概率,能够有效地防御各种类型的攻击,并处理对话生成等多任务中的一对多问题。该研究有望引起人们对深度自然语言生成系统中后门风险的 - 强化学习中防御奖励中毒攻击
本文提出了防御策略,针对强化学习中的奖励污染攻击,并使用优化框架和性能保证来设计对抗策略。
- 如约而至的聊天:学习操作黑盒神经对话模型
本文旨在探索通过学习如何构造输入句子,从而使黑盒神经会话模型生成所期望的输出,并提出了一个基于强化学习的模型,通过在经典模型上的实验验证了该方法的有效性,从而揭示了神经会话模型被操纵的潜力,启发和开展神经对话模型的防御策略。
- ICML一组不同参数攻击的集成用于可靠评估对抗鲁棒性
本文提出两个方法以提高 PGD 攻击的效率,进而结合现有方法构成一个全新的攻击集合,用于测试对抗鲁棒性,并在 50 多个模型上进行了测试,发现一些已经被攻破的防御机制。
- AAAI针对自然语言高级智能的对抗性语言游戏
该论文研究对抗性语言游戏及其在自然语言处理中的应用,提出 Adversarial Taboo 作为一个典型的挑战性语言游戏,分别考虑攻击和防御策略,并在多个基准攻击和防御策略的实验中,得到了有趣的和有前途的结果。
- ICLRSesame Street 上的盗贼!BERT-based API 的模型提取
该研究探讨了自然语言处理中模型提取的问题,结果表明,在具有查询访问权限的情况下,攻击者可以使用任意的打乱语序的字串以及特定启发式方法从模型中提取出相应模型的本地副本,通过使用预先训练好的 NLP 模型,使用转移学习的方法,他们在各种类型的 - CVPR通过选择性特征重建来抵御普适性攻击
本文提出了一种新的深度神经网络防御机制,该机制通过对 DNN 特征域中最易受到对抗性噪声攻击的预训练的卷积特征进行可训练的特征重建,将这些 DNN 滤波器激活转换成鲁棒性更高的特征,从而有效地保护免受通用扰动的攻击。通过重建至多 6 个 D