- MM随机平滑中的统计估计问题的处理方法对抗鲁棒性
通过采用置信区间与较少样本的统计估计方法,我们提供了一种新的方法来解决随机平滑中的计算负担,从而在标准方法中获得相同的统计保证。同时我们提出了一个随机版本的 Clopper-Pearson 置信区间,证明了这种方法的效果明显更好。
- 揭秘神经网络的对抗脆弱性之路
我们研究了深度神经网络在分类任务中的对抗性鲁棒性,通过矩阵理论解释了深度神经网络对分类的对抗性脆弱性,理论结果表明输入维度增加时,神经网络的对抗性鲁棒性会降低,并且其鲁棒性只能达到最佳鲁棒性的 1/√d。这一矩阵理论解释与以前的信息理论基于 - ICMLDataFreeShield:无须训练数据的防御对抗攻击
最近对于对抗鲁棒性的研究依赖于丰富的训练数据,然而在现实生活中,由于安全和隐私问题,训练数据往往会被保持私密,而只有预训练权重对公众可见。因此我们对无数据对抗鲁棒性这一关键问题进行了研究,提出了 DataFreeShield 方法从数据生成 - 通过 t-SNE 镜头探索逐层的对抗性鲁棒性
我们提出了一种方法来评估图像分类人工神经网络的对抗鲁棒性,该方法利用 t-SNE 技术进行视觉检验,并且通过比较干净和扰动后的嵌入来确定网络中的弱点。通过对比两种不同的人类设计和神经进化设计的神经网络在 CIFAR-10 数据集上的分析,我 - 可解释的人工智能安全:探索图神经网络对对抗攻击的鲁棒性
图神经网络 (GNNs) 的脆弱性研究,通过系统性地考虑图数据模式、模型特定因素和对抗样本的传递性,揭示了对抗攻击对 GNN 的影响,从而为提高 GNN 的对抗鲁棒性提供了相关的准则和原则。
- AgentDojo:评估 LLM 智能体的攻击和防御的动态环境
AI agents vulnerable to prompt injection attacks are evaluated for adversarial robustness using the AgentDojo framework, - 增强型压缩神经架构搜索对于多用途对抗鲁棒性的研究
通过双层训练范式和适应多样攻击情境的框架,我们提出了一种适应性压缩神经构架搜索方法,使得神经网络具备更轻量级和更具鲁棒性。
- ICLR自监督对抗训练单目深度估计抵抗现实世界攻击
我们提出了一种新颖的自监督对抗训练方法,通过利用视图合成以增强单眼深度估计模型对真实世界攻击的对抗鲁棒性,而无需真实深度的地面真值。我们的方法在两个代表性的单眼深度估计网络上进行实验证明,相比于特别设计用于单眼深度估计的监督学习和对比学习方 - 深度状态空间模型的对抗鲁棒性探索
深度状态空间模型(SSMs)面临着真实世界部署中的对抗性扰动(APs)所带来的严重安全挑战。本研究评估了 SSMs 的不同结构变种在对抗训练(AT)中的对抗鲁棒性(AR)表现,并发现引入注意力机制对于 SSMs 在 AT 中具有更好的稳健性 - 约束性自适应攻击:针对表格数据深度神经网络的有效对抗性攻击
我们提出了 CAPGD 和 CAA 两种新的攻击方法,证明它们在表格机器学习中的有效性和高效性,认为它们应成为任何新的防御或鲁棒性架构的最低测试标准。
- 鲁棒熵搜索的安全高效贝叶斯优化
通过开发高效的信息获取函数 Robust Entropy Search(RES),我们在合成数据和真实数据的实验中实证其优点,并展示了 RES 相对于最先进算法的优越性,从而解决了工程应用中贝叶斯优化(BO)的高采样效率和找到稳健解决方案的 - 应对再现性危机:验证认证鲁棒性的案例研究
本文通过案例研究验证了复现性危机对对抗性鲁棒性研究的影响,提出了解决方案,强调了合作和标准化努力的必要性,并倡导了确保研究结果可靠和有效的最佳实践。
- 利用多对多关系对抗视觉语言对抗性攻击
通过研究视觉 - 语言模型在图像 - 文本检索中的对抗攻击,本文提出了一种利用 N:N 关系增强对抗鲁棒性的防御策略,并证明了多样化扩增技术和对齐的图像 - 文本对对提高模型的鲁棒性具有重要作用。
- 大型视觉语言模型的白盒多模态越狱
通过对大规模视觉语言模型的攻击,我们提出了一种综合性的策略,该策略同时攻击文本和图像模态,以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明,我们的通用攻击策略可以有效地越狱 MiniGPT-4,成功率达到 96%,突显了视觉语言模型 - 对抗鲁棒性表示学习的光谱正则化
我们提出了一种新的谱正则化方法,该方法鼓励下游分类任务中特征表示的黑盒敌对鲁棒性,实证结果表明,该方法在提高测试准确性和鲁棒性方面比以前提出的方法更加有效,并且改善了利用自监督训练或从其他分类任务中传递学习到的表示学习分类器的敌对鲁棒性。总 - 大型语言模型哨兵:通过 LLM 代理推进对抗鲁棒性
我们引入了一种名为 LLAMOS 的新型防御技术,通过净化输入到目标大型语言模型之前的对抗文本示例,以增强大型语言模型的对抗鲁棒性。我们的方法包括两个主要组成部分:a) 代理指示,可以模拟新的代理进行对抗防御,通过最小限度地更改字符来保持句 - 通过数据本地化对稀疏对抗扰动进行认证鲁棒性
通过对局部化数据分布的理解,提出了一种基于几何形态的简单分类器 Box-NN,并在 MNIST 和 Fashion-MNIST 数据集上取得了对于稀疏攻击的认证稳健性方面的最新研究成果。
- 对敌对提示调整的鲁棒泛化问题的重新审视
通过多模态提示学习来提高图像和文本特征的对齐度,利用预训练的 CLIP 强大的泛化能力,引导模型在对抗性示例上增强鲁棒泛化能力,同时在干净示例上保持准确性。
- ICLR多模态大型语言模型的视觉定位对抗鲁棒性
使用多模态大型语言模型(MLLMs)对视觉定位进行饱受关注的对抗性攻击研究,通过提出三种对抗攻击范式来攻击 MLLMs 的视觉定位性能,进而为提高 MLLMs 的视觉定位的对抗鲁棒性提供了新的视角和强大的基线。
- ICML拟合干扰攻击下的适应性推断的优点与挑战
在安全关键应用领域如医学成像和自动驾驶中,维持高的对抗鲁棒性以保护免受潜在对抗攻击的影响,并进行可靠的不确定性量化对于决策至关重要。本研究通过使用合规性预测 (CP) 方法,探究了深度学习模型的不确定性,同时深入研究了合规性预测在对抗防御中