基于自监督嵌入的对抗性攻击快速检测与分类
本文提出了一种名为 SCAT 的自我监督对比式学习的新型框架,它可以在不要求已标记数据的情况下学习稳健的表示,并且可以增强现有预训练语言模型的稳健性。
Jul, 2023
本文介绍了 RobustSentEmbed,这是一个自监督的句子嵌入框架,旨在改善自然语言处理任务中的泛化能力和对抗性环境中的鲁棒性。通过生成高风险对抗扰动并利用新颖的目标函数,RobustSentEmbed 能够熟练学习高质量且鲁棒的句子嵌入。实验证实了 RobustSentEmbed 优于最先进的表示方法的优越性,尤其是对于各种对抗性攻击,BERTAttack 的成功率从 75.51% 降低至 38.81%。该框架还在语义文本相似性任务和各种迁移任务中分别实现了 1.59% 和 0.23% 的改进。
Mar, 2024
提出了基于自监督学习的框架用于检测和识别各种类型的网络攻击,该框架利用大量未标记的感知数据中的隐式模式来学习具有概括性和有效性的表示,同时结合少量标记数据训练特定任务的分类器,以及提出了一种新的损失函数来解决现实世界中训练数据不平衡的问题,实验结果表明该框架在电力网系统中表现出优越的性能。
May, 2024
本文首次提出了一种自我监督的对抗训练机制,在输入空间中防御对抗性攻击,并提供极大的鲁棒性,可以作为即插即用的解决方案来保护各种视觉系统,包括分类、分割和检测,同时极大降低了未知攻击的成功率。
Jun, 2020
为了更有效地检测异常,本文提出了一种基于自监督学习和自注意力图卷积(SLSG)的网络,SLSG 使用生成式预训练网络辅助编码器学习正常模式的嵌入和位置关系的推理,并通过比较模拟异常来更好地总结正常特征。此外,SLSG 通过构建更一般的图结构,在图像元素之间全面建模稠密和稀疏关系,从而进一步增强了逻辑异常的检测,实验结果表明 SLSG 具有优越的异常检测性能。
Apr, 2023
提出了一种新颖的对抗检测和修正方法,利用自动编码器和基于 KL 散度的自定义损失函数实现分类器的预测和重构实例之间的比较,该方法是无监督的、易于训练的,并不需要关于基础攻击的任何知识。在 MNIST 和 Fashion-MNIST 上,检测器几乎完全中和了像 Carlini-Wagner 或 SLIDE 这样的强大攻击,在攻击袭击者可以完全访问分类模型但无法访问防御情况下,对 CIFAR-10 仍然非常有效。我们展示了我们的方法仍然能够检测到对抗性例子,在攻击者对模型和防御都有充分了解的白盒攻击情况下并研究了攻击的鲁棒性。该方法非常灵活,还可以用于检测常见的数据损坏和扰动,从而对模型表现产生负面影响。我们在 CIFAR-10-C 数据集上介绍了这种能力。
Feb, 2020
利用主动合成的伪造图像进行深度学习的泛化辨别,提出了一种新的深度伪造检测方法,该方法使用一种泛化表示,并通过增加伪造的多样性和扩展敏感性来提高检测效果,采用了对抗训练策略,能获得更好的性能表现。
Mar, 2022
本论文介绍了如何利用自监督学习的方法抵御神经网络的对抗攻击,提出了自监督表示结合 k - 最近邻算法用于分类,同时还提出了自主学习对抗训练。实验结果表明,自监督表示在稳健性方面优于其受监督版本,并且自监督对抗训练可以有效提高防御能力。
Nov, 2019