对抗稳健性作为学习表示的先验

Jun, 2019

Adversarial Robustness as a Prior for Learned Representations

Logan Engstrom, Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Brandon Tran...

TL;DR本研究表明，鲁棒优化可以被重新定义为对深度神经网络学习特征的先验约束，经过鲁棒模型学习的特征表示方法能够解决标准神经网络表示方法的缺陷，并显著提高了高水平的输入编码能力。同时，这些特征表示方法具有相对可逆性，允许直接可视化和操纵输入的显著特征，提示使用对抗性鲁棒性来改善学习表示方法的可行性。

Abstract

An important goal in deep learning is to learn versatile, high-level feature representations of input data. However, standard networks' representations seem to possess shortcomings that, as we illustrate, prevent them from fully realizing this goal. In this work, we show that

deep learning neural networks feature representations robust optimization adversarial robustness

发现论文，激发创造

稳健代理：通过稳健代理学习提高对抗性稳健性

本文提出了一种名为 Robust Proxy Learning 的训练框架，该框架可以通过生成代表类的健壮特征并将其用作健壮代理来明确地学习对抗性健壮特征表征，进而提高深度神经网络的健壮性。

Jun, 2023

面向对抗攻击具有抵抗能力的深度学习模型

通过稳健优化方法探究神经网络对抗攻击的鲁棒性，设计出对抗攻击和训练模型的可靠方法，提出对于一阶对手的安全保证，并得到针对广泛对抗攻击的高鲁棒性网络模型。

Jun, 2017

通过对抗特征学习实现可控的不变性

本文提出了一种通过对抗学习策略学习能够抵抗特定数据因素影响的新型表示学习方法，并通过多个基准测试表明所提出的方法可以获取到不变表示，从而提高模型的泛化能力。

May, 2017

隐私保护与任务导向表征的对抗学习

本文提出了一种对抗性重构学习框架，旨在学习一种以任务为导向的隐私保护表示，以防止模型反演攻击，采用负像素重构损失或负感知距离损失最小化来实现，展示了在面部属性预测任务中我们的方法可以在小幅度降低实用性的情况下保护视觉隐私，并提供了不同特征、任务和数据的广泛研究，以进一步分析它们对隐私保护的影响和效用 - 隐私权衡的关系。

Nov, 2019

通过使用解缠表示进行对抗混合实现野外的稳健性

本文提出一种新的方法来达到对真实世界输入的鲁棒性，该方法利用了分解输入的表示来定义不同的变化因素，并通过对不同图像的表示进行对抗组合生成新的输入图像。我们使用 StyleGAN 模型来证明这一框架的有效性，并通过训练模型对真实世界的变化进行了不变性训练，从而改善了模型的泛化能力，并降低了冗余相关性的影响。

Dec, 2019

神经网络潜在表征中的对抗性机器学习

通过信息论的背景将此问题转化为信息失真和鲁棒性的两个新度量，我们对分布式深度神经网络（DNNs）对抗行为的鲁棒性进行了严格分析，并通过考虑 6 种不同的 DNN 架构、6 种不同的分布式 DNN 方法和对 ImageNet-1K 数据集进行 10 种不同的对抗攻击的广泛实验分析来验证我们的理论发现。实验结果支持我们的理论发现，显示出压缩的隐含表示可以在最佳情况下将对抗性攻击的成功率降低 88％，平均降低 57％，与对输入空间的攻击相比。

Sep, 2023

分层稳健表示学习

本研究探讨了深度学习中中间层所提取的深层特征，并证明了这些特征的性能可能不佳，因为它们是通过最小化经验风险来学习的。针对当前任务与基准数据集的数据分布不同的情况，本研究提出了一种层次稳健优化方法来学习更通用的特征。该方法同时考虑了 example-level 与 concept-level 稳健性，并将问题公式化为带有 Wasserstein 模糊集约束的分布稳健优化问题。本文提出了一种高效的算法，并在标杆数据集上进行了实验，证明了稳健特征的有效性。

Nov, 2019

预训练中通过对抗训练获得更好的表示：理论视角

大规模深度学习中，预训练生成了下游任务的通用表示。现有文献经验性地观察到下游任务可以继承预训练模型的对抗鲁棒性，并提出了理论上的证明以揭示特征净化在预训练模型和下游任务之间的连接，在两层神经网络中展现出重要作用。通过对抗训练，每个隐藏节点趋向于选择一个或少量特征，而未经对抗训练的隐藏节点容易受到攻击。这一观察结果适用于监督预训练和对比学习，并且通过净化节点，清洁训练就足以实现下游任务的对抗鲁棒性。

Jan, 2024

通过限制深度神经网络的隐藏空间来进行对抗性防御

针对深度神经网络易受对抗性攻击的问题，本文提出了一种基于特征重构的防御方法，具体来说，通过将每个类别的特征强制限制在一个凸多面体内，使得网络学习到的决策区域更加独特和远离各个类别的边界，提高了网络的鲁棒性，同时在干净图像的分类性能上不会退化。

Apr, 2019

深度神经网络对未知对抗攻击的健壮性评估

通过分析正常和对抗攻击样本的深度神经网络表示之间的差异，研究了对抗攻击的鲁棒性和现有防御机制的普适性，并揭示了 L2 和 Linfinity 范数之间的显著差异。

Aug, 2023