基于自监督嵌入的对抗性攻击快速检测与分类

ICCVAug, 2021

基于自监督嵌入的对抗性攻击快速检测与分类

Sample Efficient Detection and Classification of Adversarial Attacks via Self-Supervised Embeddings

Mazda Moayeri, Soheil Feizi

TL;DR本文提出了一种使用预训练的自监督编码器嵌入向量的线性模型来检测和分类对抗性攻击的方法 SimCat，并通过对多种攻击类型的实验验证其有效性，同时在适应性攻击下进行了探究，提高了其鲁棒性。

Abstract

Adversarial robustness of deep models is pivotal in ensuring safe deployment in real world settings, but most modern defenses have narrow scope and expensive costs. In this paper, we propose a self-supervised method to detect adversarial attacks and classify them to their respective

adversarial attacks threat models simclr encoder linear classifier adversarial training

发现论文，激发创造

SCAT: 基于对抗训练的鲁棒自监督对比学习在文本分类中的应用

本文提出了一种名为 SCAT 的自我监督对比式学习的新型框架，它可以在不要求已标记数据的情况下学习稳健的表示，并且可以增强现有预训练语言模型的稳健性。

Jul, 2023

RobustSentEmbed: 使用对抗自监督对比学习获得鲁棒的句子嵌入

本文介绍了 RobustSentEmbed，这是一个自监督的句子嵌入框架，旨在改善自然语言处理任务中的泛化能力和对抗性环境中的鲁棒性。通过生成高风险对抗扰动并利用新颖的目标函数，RobustSentEmbed 能够熟练学习高质量且鲁棒的句子嵌入。实验证实了 RobustSentEmbed 优于最先进的表示方法的优越性，尤其是对于各种对抗性攻击，BERTAttack 的成功率从 75.51% 降低至 38.81%。该框架还在语义文本相似性任务和各种迁移任务中分别实现了 1.59% 和 0.23% 的改进。

Mar, 2024

释放无标签数据的力量：智能电网中用于网络攻击检测的自监督学习框架

提出了基于自监督学习的框架用于检测和识别各种类型的网络攻击，该框架利用大量未标记的感知数据中的隐式模式来学习具有概括性和有效性的表示，同时结合少量标记数据训练特定任务的分类器，以及提出了一种新的损失函数来解决现实世界中训练数据不平衡的问题，实验结果表明该框架在电力网系统中表现出优越的性能。

May, 2024

自监督方法提高对抗性鲁棒性

本文首次提出了一种自我监督的对抗训练机制，在输入空间中防御对抗性攻击，并提供极大的鲁棒性，可以作为即插即用的解决方案来保护各种视觉系统，包括分类、分割和检测，同时极大降低了未知攻击的成功率。

Jun, 2020

SLSG：通过学习更好的特征嵌入和单类分类实现工业图像异常检测

为了更有效地检测异常，本文提出了一种基于自监督学习和自注意力图卷积（SLSG）的网络，SLSG 使用生成式预训练网络辅助编码器学习正常模式的嵌入和位置关系的推理，并通过比较模拟异常来更好地总结正常特征。此外，SLSG 通过构建更一般的图结构，在图像元素之间全面建模稠密和稀疏关系，从而进一步增强了逻辑异常的检测，实验结果表明 SLSG 具有优越的异常检测性能。

Apr, 2023

通过匹配预测分布进行对抗性检测和纠正

提出了一种新颖的对抗检测和修正方法，利用自动编码器和基于 KL 散度的自定义损失函数实现分类器的预测和重构实例之间的比较，该方法是无监督的、易于训练的，并不需要关于基础攻击的任何知识。在 MNIST 和 Fashion-MNIST 上，检测器几乎完全中和了像 Carlini-Wagner 或 SLIDE 这样的强大攻击，在攻击袭击者可以完全访问分类模型但无法访问防御情况下，对 CIFAR-10 仍然非常有效。我们展示了我们的方法仍然能够检测到对抗性例子，在攻击者对模型和防御都有充分了解的白盒攻击情况下并研究了攻击的鲁棒性。该方法非常灵活，还可以用于检测常见的数据损坏和扰动，从而对模型表现产生负面影响。我们在 CIFAR-10-C 数据集上介绍了这种能力。

Feb, 2020

基于频率的语义相似性不可察觉对抗攻击

通过在特征表示上进行对抗攻击，使用语义相似性对分类器进行攻击，同时使用低频率约束，保证对抗样本和原始样本的感官相似性和跨数据集泛化。

Mar, 2022

自监督学习对抗示例：朝着深度伪造检测的良好泛化

利用主动合成的伪造图像进行深度学习的泛化辨别，提出了一种新的深度伪造检测方法，该方法使用一种泛化表示，并通过增加伪造的多样性和扩展敏感性来提高检测效果，采用了对抗训练策略，能获得更好的性能表现。

Mar, 2022

自监督学习的后门攻击

该研究探讨了对于基于无监督大规模未标注数据的自监督学习方法的后门攻击，提出了通过知识蒸馏的防御方法，并在实验中取得了成功。

May, 2021

自监督对抗训练

本论文介绍了如何利用自监督学习的方法抵御神经网络的对抗攻击，提出了自监督表示结合 k - 最近邻算法用于分类，同时还提出了自主学习对抗训练。实验结果表明，自监督表示在稳健性方面优于其受监督版本，并且自监督对抗训练可以有效提高防御能力。

Nov, 2019