- 修复一行代码破解 Sabre 漏洞
通过揭示在评估过程中的明显的梯度掩蔽问题和代码中的漏洞,我们展示了防御对抗性样本的 Sabre 算法的缺陷,并通过修复一个代码错误,将其鲁棒准确率降至 0%。作者通过修改算法引入新的防御组件以应对此问题,但修复过程中出现了第二个错误,进一步 - 对抗特征对齐:通过对抗训练在深度学习中平衡鲁棒性和准确性
本文提出了一种名为 Adversarial Feature Alignment (AFA) 的新型对抗性训练方法,旨在解决深度学习模型在安全性上平衡鲁棒性和准确性的挑战。通过利用对比学习的优化算法,AFA 减轻特征不对齐可能导致误分类的风险 - 大规模重温对抗训练
通过在规模上应用对抗训练,我们引入了一种名为 AdvXL 的高效训练策略,它能够以可承受的计算成本训练巨型模型和网络规模的数据,从而在 ImageNet-1K 上建立了新的鲁棒准确性记录。
- 光谱视角理解和提高对抗鲁棒性
本研究从频谱的角度探讨对抗性训练机制(AT),展示在低频区保留偏向形状的表示能够提高深度神经网络(DNNs)的鲁棒性,并提出了一种名称为 “频谱对齐正则化”(SAR)的训练方法,在多个数据集和攻击下显著提高 DNNs 的鲁棒准确性。
- 双管齐下:通过结合转导和拒绝机制实现更好的对抗鲁棒性
在拒绝和转导两个技术中,拒绝 + 转导可提供显著改进,本研究发展了一种新的转导方法,结合 Tram'er 的分类器 - 探测器技术,达到更好的鲁棒性。
- AAAI在对抗训练中提高最劣鲁棒性
本文提出了一种最差类对抗训练(worst-class adversarial training)的新框架,利用无悔动态来解决对抗样本攻击的问题,旨在获得在最差情况下表现优异的分类器,并在同时仅牺牲少量平均鲁棒性。作者在各种数据集和网络上的实 - 通过信息瓶颈改善自然语言处理模型对抗攻击鲁棒性
本文利用信息瓶颈理论,研究消除易受攻击的非鲁棒特征,提取任务特定的鲁棒特征。通过大量实验证明,我们的方法可在 SST-2、AGNEWS 和 IMDB 数据集上除了几乎不受性能下降的情况下,在鲁棒准确度上实现显著提高,超过以往任何被报道的方法 - CVPRImageNet 鲁棒性能是否能够传递至下游任务?
当前 ImageNet 的准确率已接近其上限,研究界越来越关注分布偏移下的鲁棒准确率。本论文主要关注的是如何提高神经网络的鲁棒性,并考虑使用预训练的 ImageNet 模型在目标检测、语义分割、图像分类等不同领域的跨域应用。研究表明,对于目 - 对抗训练分类准确率的精确统计分析
本文研究了针对二分类问题且数据按两个具有各向异性协方差矩阵的高斯混合分布产生的情况。在这个问题上,我们推导了一种具有极小 - 极大策略的经过对抗训练的模型在标准和鲁棒准确性方面的精确表现。
- ICLRInfoBERT: 从信息理论的角度提高语言模型的鲁棒性
从信息论的角度出发,我们提出了 InfoBERT 框架来增强预训练语言模型的鲁棒性,包含两种基于相互信息的正则化器:信息瓶颈正则化器和鲁棒特征正则化器。实验证明,该方法在 NLI 和 QA 任务上取得了最先进的鲁棒性的结果。
- 探究快速对抗性训练
本文通过实验研究快速对抗训练的行为并显示其成功的关键在于从过度拟合弱攻击中恢复。我们进一步扩展了这一发现以改善快速对抗训练,展示了与强对抗训练相比更优异的鲁棒性准确性以及更短的训练时间。
- 线性回归的对抗训练中的精确权衡
本文详细描述了对高斯特征下的线性回归算法进行对抗训练的作用,给出了任何算法能够实现的准确度之间的基本权衡,并阐明了现代迷你最大对抗训练方法在高维度情况下达到的标准 / 稳健准确度和相应的权衡。
- 对抗训练可能会损害泛化
本文研究了对抗训练在提高鲁棒精度(对抗方面)的同时又有可能降低标准精度(没有对抗方面)。通过构造凸学习问题,我们发现鲁棒精度和泛化能力之间存在基本的紧张关系,而利用未标记的数据进行鲁棒自我训练可以消除这种关系。