- 利用深度鲁棒分类器中的边缘一致性检测脆弱决策
本文引入了边际一致性的概念,该概念将输入空间的边际与鲁棒模型的逻辑边际联系起来,用于高效地检测易受攻击样本和评估部署情景中的对抗脆弱性。
- MM量子分类器的对抗鲁棒性保证
通过使用量子机器学习算法,研究结果表明对抗性攻击具有一定的量子保护性,能够提供对机器学习算法的鲁棒性,使其对数据扰动、局部攻击和普遍对抗性攻击具有一定的保护能力。
- 谐波机器学习模型的鲁棒性
用 Harmonic Robustness 方法测试机器学习模型的鲁棒性,无论是在训练过程中还是在黑盒实时推断监控中,该方法基于与谐波均值属性的功能偏差,表明其不稳定性和缺乏可解释性。通过在低维树和前馈神经网络中进行实现示例,该方法可可靠地 - 费米 - 玻色机
深度神经网络与人类认知处理不同,易受到对抗样本的干扰。我们设计了一种语义相关的表示学习方法,采用局部对比学习代替反向传播,其中相同标签的输入在隐藏层中收缩(类似于玻色子),而不同标签的输入则互相排斥(类似于费米子)。这种逐层学习是局部的,符 - 善意过拟合对对抗鲁棒性的惊人有害性
将方差过高的机器学习模型用于对付具有恶意目标的数据可能会导致对抗性风险的增加。
- QuadAttack: 有序 top-k 攻击的二次规划方法
通过用低计算成本的 QuadAttacK 方法在特征嵌入空间中解决问题,在图像分类任务中成功将有序前 K 攻击的边界从 K=10 提升到 K=20,同时在所有测试模型中提高 K=5 的攻击成功率,而保持了 K=1 的性能。
- 深度学习中识别未知性的模糊度量
我们研究深度神经网络在其训练范围内的理解。我们提出了一种量化模型输入的不确定性的度量方法,基于训练模型在特征空间中学习的决策边界的几何安排和训练集的凸包。使用这种不确定性度量,我们的模型能够在遇到不确定的输入时放弃分类,从而使模型在更广泛的 - 对抗性鲁棒基于记忆的持续学习器
对记忆型持续学习算法的对抗鲁棒性进行研究,提出了一种新的对抗鲁棒记忆型持续学习方法,通过调整数据的逻辑值来减轻敌对样本导致的过去信息遗忘,并通过梯度选择机制克服有限存储数据导致的梯度混淆,实验结果表明该方法在对抗数据上取得高达 8.13% - 系统性、实践性和公正性地评估基于传递的攻击
该论文探讨了深度神经网络(DNNs)的对抗性脆弱性,并建立了一个基于转移的攻击基准(TA-Bench)来评估和比较 30 多种方法在 ImageNet 上的 25 个受害模型,从而提供了这些方法的有效性新见解和未来评估的指导。
- 语义感知对抗训练可靠的深度哈希检索
通过构建语义代表以及生成对抗样本的方式来提高深度哈希模型的对抗性鲁棒性,进而在大规模图像检索系统中得到更可靠的检索结果。
- 深度平衡模型对抗鲁棒性的更深入探究
使用中间梯度的方法对 Deep Equilibrium Models 进行白盒攻击与评估,提高了其对抗攻击的鲁棒性,实验证明其在 CIFAR-10 数据集上的性能与同等规模的深度神经网络竞争力相当。
- 评估大规模视觉语言模型的对抗鲁棒性
本研究评估了开源大型视觉 - 语言模型的鲁棒性,发现黑盒查询可以进一步提高定向逃避的效果。研究结果为大型视觉 - 语言模型的敌对脆弱性提供了量化的理解,并呼吁在实际部署之前对它们的潜在安全漏洞进行更全面的研究。
- MM找到对抗性示例所需的维数是多少?
研究对抗性漏洞的影响因素,得出标准 PGD 攻击的成功率呈单调递增的函数关系,表明对抗样本在高维空间局部线性模型上很普遍。
- 通过自适应逐实例损失平滑提升对抗训练
通过对输入进行敌对扰动(即人类感知不到的人工噪音),深度神经网络容易产生错误预测。迄今为止,敌对训练已成为对抗性攻击最成功的防御方式。本文聚焦于改进敌对训练以提高对抗性强度,提出了一种新的敌对训练方法 ISEAT,它通过自适应、实例特定的方 - 信息论视角下的解耦文本表示学习对抗性鲁棒性
本文从可分离表示学习的角度解决了对抗鲁棒性的挑战,并设计了一个可分离学习网络来估计互信息,实验证明该方法在对抗攻击下显著优于代表性方法,强调舍弃非鲁棒性特征对于提高对抗鲁棒性至关重要。
- FuncFooler: 一种对基于学习的二进制代码相似性检测方法实施的实用黑盒攻击
本研究设计了一种高效的黑盒对抗代码生成算法 FuncFooler,以评估基于学习的二进制代码相似性检测(BCSD)方法的对抗鲁棒性。FuncFooler 成功攻击了三种学习型 BCSD 模型 SAFE、Asm2Vec 和 jTrans,使学 - ICLR对抗性风险、插值和标签噪声的法则
本文提出了决策树集成的一种新的方法,将决策树的归一化过程与集成过程相结合,通过交替的方式迭代调整决策树和集成,有效提高了集成的分类性能。
- ICML鲁棒预训练的数据高效双赢彩票
本研究提出了一种 “双赢彩票模型”,在同时具有标准训练和对抗训练的下游任务中, 可独立转移预训练模型的定位子网络,以达到与完整预训练模型相同的标准和强健的识别泛化效果。然后,本研究探讨了各种预先训练机制,发现强健的预先训练倾向于制作更稀疏的 - 确保因果干预对自然语言攻击的稳健性证明
本文从因果的角度探讨了深度学习模型在面对对抗性示例时的容易受到攻击的漏洞,提出了一种新的对抗性攻击防御框架 CISS,该框架采用平滑的方式在潜在的语义空间中学习因果效应,并在深层次结构的规模上实现了鲁棒性,并避免了为特定攻击定制噪声的繁琐构 - ICCV通过对抗性轨迹扰动欺骗 LiDAR 感知
通过对无人车的轨迹进行微小干扰,恶意攻击者能够对深度学习网络中的运动补偿机制进行攻击,破坏无人车对安全关键物体的探测。多项实验表明,这种攻击手段不仅能够有效降低现有最优检测器的性能,而且还具有较强的通用性。