- 通过极值理论理解参数重要性
通过分析极值理论,我们在此工作中试图弥合参数显著性排名对于寻找引发误识别的滤波器存在的知识差距。我们的实验结果表明,我们的重述方法也可以检测恶意滤波器,并且相比于现有的参数显著性方法,基于极点方法的参数显著性显示了更少的偏差。
- 关于可转移性和加性噪声输入转换的评论
本文研究对抗攻击在神经网络领域中的应用,通过数学证明,探索了加入噪声的输入转换与转移对抗性样本的关系。
- MM图像解释的重要性:现实世界对抗图像中语义误分类的模式
该论文提出了一种新的方法来评估对抗样本,即基于语义误差而非标签误差,并证明了这种方法具有更高的实用性和应用性。
- 对抗攻击的可逆性
本论文探究了对抗攻击的可预测性和可逆性,提出了使用分类结果集来逆转分类器中对抗攻击效果的方法,并分析了最新对抗攻击方法对此的影响。
- ICML超类敌对攻击
本研究分析超类对抗攻击的准确性、速度和稳定性,并找出多种方法提高超类对抗攻击的性能,研究成果可应用于多类别问题设置中的其他攻击。
- ACLSEPP: 针对对抗文本的防御和检测中的预测概率相似度估计
该论文提出了一种基于相似度估计的预测概率的集成模型 (SEPP),用于纠正分类器对误分类文本的不正确预测,并展示了该模型在不同类型的受害者分类器、分类任务和对抗攻击中识别和捍卫信息安全的鲁棒性。
- 使用正交投影梯度下降规避对抗性样本检测防御
本文介绍了一种基于 Orthogonal Projected Gradient Descent 攻击技术的方法,通过正交化梯度来生成对抗样本,以便在同时满足误分类和被检测为非对抗性之间达到更好的平衡,成功地躲避了四种先进的对抗性检测方法,降 - 探索健壮神经网络的误分类以增强对抗攻击
针对当前神经网络抵御对抗攻击的能力较弱的情况,提出了一种新的损失函数,从而提高了 19 种不同状态下的神经网络的抗攻击能力。同时发现目前不良攻击行为只能诱发少量不同类别的误分类,过于自信或不自信都会影响对模型鲁棒性的准确评估。
- AAAI通过概率紧凑的损失函数和对数限制来提高对抗鲁棒性
本研究提出了一种基于概率紧凑性的损失函数,称为 Probabilistically Compact (PC) 损失函数,采用 logit 限制来提高卷积神经网络对抗攻击的鲁棒性,减少误分的风险。该方法在大规模数据集上进行了白盒和黑盒攻击的实 - 噪音还是信号:图像背景在物体识别中的作用
通过对 ImageNet 图像前景和背景信号的分离,发现现代物体识别模型往往依赖于背景信号,影响了模型的分类效率和漏洞表现。
- ICML非参数方法的健壮性分析
本研究探讨了当输入数据在经过一些修改后变成对抗性样本时,非参数方法的鲁棒性。结果表明,数据分离较好时,最近邻和核分类器的鲁棒性是最优的,直方图则不是。对于普遍的数据分布,通过对抗裁剪预处理后使用最近邻或核分类器也能实现最优的鲁棒性。
- 防御深度神经网络后门攻击
本文研究深度神经网络面临的后门攻击问题,提出了基于 L∞规范的神经元修剪方法来消除后门,实验证明该方法成功率显著降低,并对清晰图像保持高分类准确度。
- 深度神经网络的噪声稳健性分析
本文提出一种视觉分析方法,通过比较和分析对抗和正常示例的数据路径,解释为什么对抗性示例被错误分类。使用神经网络构建和训练解决其子集选择问题,采用多层可视化来帮助研究数据路径的。
- 一种计算类普遍对抗扰动的方法
该论文提出了一种基于线性函数和神经网络参数计算类特定通用对抗扰动的算法,能使大部分相同类别的图像被错误分类,同时没有训练数据和超参数,并在 ImageNet 上获得了 34% 到 51% 的欺骗率并跨模型传递。研究表明,标准和针对对抗性训练 - 关于物理对抗贴片在物体检测中的应用
本文提出了一种物理性的对抗攻击方法,能够通过拼贴一个合理设计的补丁扰乱 YOLOv3 检测器的识别结果,避免误判或漏检目标,从而在不需要修改场景中的物体的情况下,对目标检测系统进行攻击。
- 神经网络易受奇怪姿势的熟悉对象欺骗
文章利用 3D 渲染器和自制的数据集,揭示了深度神经网络在处理不同位置物体的图像时容易出现误分类的问题,并证明,即使在不同模型和数据集上,对抗性的位置扰动仍然具有传递性。
- 对实时视频分类系统的对抗性扰动
本研究探讨了实时视频分类系统中对抗性干扰的可能性与必要条件,发现在考虑时序结构的情况下,利用生成对抗网络可以产生能够导致高达 80% 有针对性活动误分类的对抗样本,对其他活动几乎没有影响,并且同一扰动可以适用于视频剪辑中的每一帧。
- 防御蒸馏的扩展
本研究探讨机器学习在面对对抗性示例时的弱点以及通过重新审视防御蒸馏来应对其挑战,旨在提高模型训练技术的重要性。
- ICLR语义图像分割的对抗性样本
本文探讨了机器学习和深度神经网络在语义分割任务上遭受对抗性干扰的问题,证实了对抗性攻击对该任务也具有显著影响,可以通过不可察觉的对抗性扰动诱导深度神经网络对某一类别像素的错误分类而几乎不影响该类别以外像素的分类。
- 深度网络的简单黑盒对抗扰动
研究表明,即使没有内部知识,对深度卷积神经网络进行黑盒攻击并制造对抗性样本是可行的,这暴露了深度神经网络的弱点,为设计安全的网络提供了检验。