深度状态空间模型的对抗鲁棒性探索

Jun, 2024

深度状态空间模型的对抗鲁棒性探索

Exploring Adversarial Robustness of Deep State Space Models

Biqing Qi, Yang Luo, Junqi Gao, Pengfei Li, Kai Tian...

TL;DR深度状态空间模型（SSMs）面临着真实世界部署中的对抗性扰动（APs）所带来的严重安全挑战。本研究评估了 SSMs 的不同结构变种在对抗训练（AT）中的对抗鲁棒性（AR）表现，并发现引入注意力机制对于 SSMs 在 AT 中具有更好的稳健性和泛化性之间的权衡，并提出了一种简单而有效的自适应缩放（AdS）机制以解决引入 RO 问题的困境。

Abstract

deep state space models (SSMs) have proven effective in numerous task scenarios but face significant security challenges due to Adversarial Perturbations (APs) in real-world deployments. adversarial training (AT)

deep state space models adversarial training attention mechanisms adversarial robustness robust overfitting

发现论文，激发创造

注意力遇到扰动：通过对抗训练实现鲁棒性和可解释性的注意力机制

本文提出对自然语言处理任务进行通用训练的技术，包括关注力对抗训练（Attention AT）和更易于解释的关注力对抗训练（Attention iAT）。该方法通过引入对抗扰动，增强了句子注意力的差异，提高了模型的预测性能和可解释性，并且尤其适用于关注力机制。实验表明，Attention iAT 在十项任务中表现最佳，并且其结果的注意力与基于梯度的单词重要性的相关性更强。此外，该方法不太依赖于对抗扰动的大小。

Sep, 2020

光谱视角理解和提高对抗鲁棒性

本研究从频谱的角度探讨对抗性训练机制（AT），展示在低频区保留偏向形状的表示能够提高深度神经网络（DNNs）的鲁棒性，并提出了一种名称为 “频谱对齐正则化”（SAR）的训练方法，在多个数据集和攻击下显著提高 DNNs 的鲁棒准确性。

Jun, 2023

利用深层模型的分层内在维度进行实用对抗训练

通过改进的 Adversarial Training 算法 SMAAT，本研究提供了 vision 和 language 模型在 generalization 和 robustness 趋势差异的首个解释，同时展示了 SMAAT 在多个任务中显著提高了鲁棒性，且相比于标准的 AT 仅需约 25-33% 的 GPU 时间。

May, 2024

A2: 高效自动化攻击者用于提升对抗训练

本文提出了一个名为 A2 的高效自动攻击者，它能够在训练过程中实时生成最优扰动，并证实其强制扰动能够有效提高不同数据集上各种对抗训练方法的鲁棒性。

Oct, 2022

学习多样化结构网络以提高对抗鲁棒性

该研究提出了一种名为 DS-Net 的多样性结构网络，用于在对抗训练中进行神经网络体系结构搜索，以达到更好的性能，其中，DS-Net 仅考虑预定义的原子块，即残差块等，以显著减少搜索空间，且实验证明其优势。

Feb, 2021

通过非对称负对比和反向注意力实现鲁棒表征学习

深度神经网络容易受到对抗性噪声的攻击。为了解决这个问题，我们提出了一种通用的对抗训练框架来获得稳健的特征表达，通过非对称负对比度和反向注意力来推动不同类别的特征在特征空间中远离，并通过线性分类器参数对特征进行加权以获得类别感知的特征并将相同类别的特征相互靠近。经过在三个基准数据集上的实证评估，我们的方法大大提高了对抗训练的鲁棒性并实现了最先进的性能。

Oct, 2023

SSTA: 显著空间变形攻击

本文提出了一种新颖的框架 Salient Spatially Transformed Attack (SSTA)，用于生成不可察觉的对抗性样本（AE），通过在最关键区域上估计平滑的空间变换度量来提高 AE 的隐匿性，相比其他方法，SSTA 在保持 100% 攻击成功率的同时，有效提升了 AE 的隐匿性。

Dec, 2023

SAT: 基于课程的损失平滑改进对抗训练

本文提出了一种平滑对抗训练方法 (SAT)，它利用课程学习的思想对对抗训练过程进行平滑处理，提高了对抗训练的稳定性并在干净精度与鲁棒性之间实现了更好的权衡，具体方法基于海森矩阵的特征值以及 softmax 概率，实验结果显示该方法在 CIFAR-100 和 Imagenette 数据集上比 AT 方法显著提升了干净度与鲁棒度。

Mar, 2020

自适应对抗训练以提高 DNN 在医学图像分割和检测中的对抗性鲁棒性

本研究旨在解决医学影像分析任务中现有标准对抗训练方法中的问题，提出了一种生成适应性噪声的自适应边界对抗训练（AMAT）方法，改进了深度神经网络（DNNs）的鲁棒性，提高了模型的稳健性。

Jun, 2022

增强扩散以提高强健性泛化能力

本文提出了一种名为 Diffusion Enhanced Adversarial Training (DEAT) 的新方法，以改善 Adversarial Training 中的 generalization 问题，理论上证明了 DEAT 比主要 AT 框架 ——Projected Gradient Descent Adversarial Training (PGD-AT) 更紧密的泛化界限，并通过广泛的实证调查证实了 DEAT 的优越性。

Jun, 2023