- 视觉语言预训练模型的普适对抗扰动
我们的研究通过提出新的黑盒方法生成有效且可转移的通用对抗扰动,以揭示 VLP 模型对于图像模态特定模式的不可感知扰动是否普遍敏感,进一步研究了增强 UAPs 的有效性和可转移性的方法,达到了有效且可传递的通用对抗攻击。
- 具有本地更新和梯度跟踪的强健分布式学习
我们提出了一种分散的极小极大优化方法,利用局部更新和梯度跟踪两个重要模块,用于解决分布式学习中的数据异质性和对抗鲁棒性的挑战,并分析了算法 Dec-FedTrack 在非凸 - 强凹极小极大优化情况下的性能,证明其收敛于一个稳定点。同时进行 - 再审视视觉语言模型的对抗鲁棒性:一种多模态的观点
通过研究视觉语言模型(VLMs)的自适应对抗性鲁棒性,我们引入了一种多模态对抗性攻击策略,并在图像和文本编码器上采用多模态对比对抗性训练损失,以提高 CLIP 的对抗性鲁棒性。在 15 个数据集上进行的广泛实验表明,我们的方法显著提高了 C - SpamDam: 面向隐私保护和对抗性短信垃圾检测的研究
我们介绍了 SpamDam,一个 SMS 垃圾信息检测框架,旨在克服检测和理解 SMS 垃圾信息的关键挑战,包括缺乏公共 SMS 垃圾数据集,收集 SMS 数据的隐私问题,以及对抗对抗性检测模型的需求。
- 困扰于对抗防御?尝试扩散
通过使用扩散模型并遵循贝叶斯定理,我们提出了真实性最大化扩散分类器(TMDC),该分类器不受数据漂移和敌对训练的影响,并且采用一个优化策略以提高其对更强大敌对攻击的鲁棒性,该方法在 CIFAR10 数据集上实现了最先进的性能。
- 通过异常对抗样本正则化消除灾难性过拟合
通过观察和分析异常对抗样本(AAEs)与分类器失真之间的密切关系,本文设计了一种名为异常对抗样本规范化(AAER)的新方法,以明确规范 AAEs 的变化,从而阻止分类器失真并有效消除灾难性过拟合(CO)。大量实验证明,我们的方法可以有效消除 - CVPRDiffuseMix:保持标签的扩充数据方法与扩散模型
最近,引入了一些基于图像混合的数据增强技术来改善深度神经网络的泛化能力。我们提出了一种名为 DiffuseMix 的新型数据增强技术,该技术利用扩散模型重塑训练图像,并使用我们量身定制的条件提示进行监督。DiffuseMix 在包括一般分类 - 视觉 - 语言模型上的少样本对抗性提示学习
通过限制数据和提供对抗文本监督,提出了一种少样本对抗提示框架,该框架在提高对抗鲁棒性方面表现出卓越的能力,并在仅使用 1%的训练数据时,达到了与最先进的零样本对抗鲁棒性相匹配的水平。
- DD-RobustBench: 数据集提炼的敌对鲁棒性基准测试
数据集蒸馏是一种高级技术,旨在将数据集压缩为较小的对应物,同时保持强大的训练性能。本研究引入了一个全面的基准,用于评估统一方式下研究到目前为止最广泛的蒸馏数据集的对抗鲁棒性。通过结合更广泛的数据集蒸馏方法、包括 TESLA 和 SRe2L - 扩散去噪作为清洗标签中毒的认证防御
我们提出了一种经过认证的防御方法来对抗无标签污染攻击,通过使用扩散模型对受损的训练数据进行处理,我们在七种无标签污染攻击中将攻击成功率降低到 0-16%,同时几乎不影响测试准确率。与现有的对抗无标签攻击的防御方法相比,我们的防御方法在降低攻 - 通过曲率正则化实现对抗鲁棒的数据集精炼
研究提出了一种新方法,通过在蒸馏过程中加入曲率正则化,使得在生成的数据集上训练的模型在保持高准确性的同时获得更好的敌对鲁棒性,而且计算开销更小。实验证明该方法在准确性和鲁棒性方面都优于标准的敌对训练,并能生成经受住各种敌对攻击的鲁棒蒸馏数据 - CVPRPeerAiD: 从专门的同行导师中改进对抗性蒸馏
通过对等网络训练和敌对训练来提高小型网络的鲁棒性并保护其免受攻击,以实现更高的准确性和鲁棒性。
- CVPR一个提示词足以提升预训练视觉语言模型的对抗鲁棒性
通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性,该方法被称为对抗提示调优(APT),通过简单地向提示中添加一个学习到的单词,可以显著提高准确性和鲁棒性(epsilon=4/255),平均分别提高 13% 和 8.5%。
- 增强混合专家网络的 “免疫力” 以进行对抗性防御
我们在这项工作中提出了一种新的对抗防御方法称为 “Immunity”(基于修改的 Mixture-of-Experts(MoE)架构),通过集成随机开关门(RSGs)和创新的互信息(MI)和位置稳定性(Position Stability) - 灾难性过拟合:一种潜在的福祉
通过操纵特征激活差异来解决快速敌对训练中的灾难性过拟合问题,并通过攻击混淆来提高模型性能和鲁棒性。
- 隐式线性层的频谱抽取和裁剪
我们展示了自动微分在高效正确地计算和控制隐式线性运算符的频谱上的有效性,包括所有标准卷积和稠密层的一系列丰富类型。我们提供了第一种正确应用于一般卷积层的剪切方法,并阐明了之前研究中导致正确性问题的表征限制。我们研究了批归一化层与卷积层串联时 - 关于尖锐度感知极小化和对抗性训练之间的对偶性
通过对比 Adversarial Training (AT) 和 Sharpness-Aware Minimization (SAM) 的对偶关系,本研究发现单独使用 SAM 可以提高对抗性稳健性,同时不牺牲准确性,这为将 SAM 作为准确 - 停止推理!当多模态延续思维推理遇到对抗性图像
多模态 LLMs 对抗攻击鲁棒性的评估及 CoT 推理过程中的鲁棒性增强研究
- LLM 作为法官是否稳健?对零样本 LLM 评估进行普适对抗攻击研究
LLM 评估器的脆弱性以及连接攻击的影响对于高风险实际场景的部署提出了重要的关注和需求。
- 在连续学习中维持对抗性鲁棒性
机器学习系统的安全性和可靠性需要对抗鲁棒性。然而,由于神经网络在学习新任务时容易忘记先前的对抗鲁棒性,复杂的防御算法所获得的对抗鲁棒性很容易被抹去。为了解决这个问题,我们提出了一种名为 “双梯度投影” 的方法,通过将权重更新的梯度正交投影到