基于锚点的语言驱动对抗鲁棒零样本学习
通过限制数据和提供对抗文本监督,提出了一种少样本对抗提示框架,该框架在提高对抗鲁棒性方面表现出卓越的能力,并在仅使用 1%的训练数据时,达到了与最先进的零样本对抗鲁棒性相匹配的水平。
Mar, 2024
利用潜在对抗训练(LAT)来防御弱点,减少依赖生成激发输入的方法;通过对图像分类、文本分类和文本生成任务进行实验,LAT 通常在干净数据上提高了鲁棒性和性能,对于开发人员未明确识别的失效模式具备潜在应用前景。
Mar, 2024
在机器学习快速发展的领域中,对抗性攻击对模型的稳健性和安全性构成了重大挑战。本研究引入了 L-AutoDA(基于大型语言模型的自动化决策攻击),这是一种新颖的方法,利用大型语言模型的生成能力来自动设计这些攻击。通过与大型语言模型在进化框架中的迭代交互,L-AutoDA 能够高效地自动设计具有竞争力的攻击算法,减少了人力成本。我们在 CIFAR-10 数据集上展示了 L-AutoDA 的有效性,表现出较基准方法在成功率和计算效率方面的显著提升。我们的发现突显了语言模型作为对抗性攻击生成工具的潜力,并为开发稳健的人工智能系统提供了新的途径。
Jan, 2024
本文提出了一种通过对抗样本和零样本跨语言转移失败案例进行联系的学习策略,采用对抗性训练和随机平滑这两种方法来训练多语言编码器更加强健的模型,实验结果表明,强健训练可以提高零样本跨语言数据分类任务中的性能,尤其在输入语句属于两种不同语言的情况下,改进更为显著。
Apr, 2021
本研究通过对鲁棒性模型的分析,发现相对于输入层抗攻击性较强的特征层是高度容易受到小幅度形变攻击的。在此基础上,我们提出了一种名为 LAT 的新技术,通过对已经进行对抗性训练的模型进行微调,以保证其特征层的鲁棒性。研究表明此方法对 MNIST、CIFAR-10 和 CIFAR-100 数据集的前沿对抗准确度有轻微提升。
May, 2019
提出一种名为 M-TLAT 的新型数据增强策略,结合了 Mixup 增强和一种名为 Targeted Labeling Adversarial Training(TLAT)的新对抗训练算法,有效提高了图像分类器对于常见污染和对抗性攻击的鲁棒性,同时不会降低对于正常样本的准确率。
Aug, 2020
利用生成对抗网络 (GANs) 想象从文本描述中无法见到的类别,生成目标类别的视觉特征,附加伪数据,使得零样本学习自然地转换为传统的分类问题,并提出视觉中心正则化以保持生成特征的跨类别区分能力。实验表明,该方法在基于文本的零样本学习的最大可用基准测试中始终优于现有技术水平。
Dec, 2017
本论文提出了一种基于可学习攻击策略的敌对训练框架 LAS-AT,通过控制对抗样本的生成过程,提高模型的鲁棒性。实验结果表明,该方法优于传统手工攻击策略的方式,适用于多个基准数据库,并使用目标网络和策略网络两大部分共同实现。
Mar, 2022
我们提出了一种补偿微调过程的方法,利用具有丰富语义信息的辅助监督作为锚点来保留原始的 CLIP 特征空间,从而保持了 OOD 泛化性能,并在领域迁移和零样本学习基准上取得了新的最先进结果。
Apr, 2024
本文提出了一种基于长期交叉对抗训练 (LCAT) 的元学习方法,在自然和对抗样本分布方向上进行跨更新,以提高元学习模型的对抗性和干净的 Few-shot 分类准确性,实验结果表明,LCAT 在对抗样本上和干净样本上的 Few-shot 识别准确性上都优于目前最先进的元学习模型的对抗训练方法。
Jun, 2021