通过更多无标签数据来提升对抗鲁棒泛化能力
本文研究在简单自然数据模型中,对抗鲁棒学习的样本复杂度可以显著大于标准学习,这个差距是信息理论的,且与训练算法或模型家族无关。作者做了一些实验来证实这个结果。我们可以假设训练鲁棒分类器的困难,至少部分来自这种固有的更大的样本复杂度。
Apr, 2018
本文研究了在对抗性扰动的假设下,无标记数据在推断问题中的作用,并将两种主要的学习框架——半监督学习(SSL)和分布式鲁棒学习(DRL)统一起来,并在新的复杂性度量基础上进行了一般化理论的构建。
May, 2019
通过理论和实验,我们证明了半监督学习可以显著提高对抗性鲁棒性,实验结果表明在 CIFAR-10 上使用 500k 未标记图像,使用自我训练方法可以超过最先进的对抗性鲁棒的准确度。在 SVHN 上,使用模型自身的额外的训练集可以提高 4 至 10 个百分点,与使用额外标签的提高量相差不大。
May, 2019
研究表明,使用未标记的数据进行训练可以作为对于耐受对抗攻击模型的有竞争力的替代方法,具体而言是在简单的统计情况下,学习对抗鲁棒模型的样本复杂度与完全受监督的情况一致。此外,使用未标记数据的无监督对抗训练方法可以在 CIFAR-10 这样的标准数据集上,使得鲁棒准确性比仅仅使用 4K 监督样例有 21.7% 的提升,并且可以捕捉到相同数量标记样例的改进量中超过 95% 的部分。最后,使用来自未筛选的 8000 万张小图片数据集的额外未标记数据,在 CIFAR-10 上击败了当前已知最强的攻击,展示了我们的发现也适用于未筛选的现实情况,从而为提高对抗训练打开了新的途径。
May, 2019
本文研究对抗训练在分类问题的应用,发现更多的训练数据可能会损害对抗准确性模型的泛化能力,特别在存在强对抗时更加明显,给出了针对线性和二维分类问题的实验支持。
Feb, 2020
本文研究了神经网络建模的正则化视角,通过将模型向分类决策边界的平滑变化进行防御,使其尽可能不改变预测结果,但会导致预测结果的置信度下降,这种正则化方法要避免性能下降。
Nov, 2020
本文利用Wasserstein距离定义了out-of-distribution(OOD)一般化,理论上证明对输入扰动具有鲁棒性的模型可以在OOD数据上一般化;在图像分类和自然语言理解任务上进行了实证验证,并进一步理论证明了在预训练和微调范式中,更具扰动输入鲁棒性的预训练模型可以更好地初始化在下游OOD数据的泛化,实验证明在经过微调后,这种通过对抗训练预训练的更好初始化的模型也有更好的OOD一般化。
May, 2021
关键词:对抗鲁棒性、半监督对抗训练、有标签数据稀缺、正则化项、知识蒸馏。摘要:本文研究了对抗鲁棒性的半监督对抗训练,探究了稀缺有标签数据情况下的两个鲁棒风险上界,并提出了正则化项以应用于无标签数据,最后通过半监督教师模型的知识蒸馏结合提出的正则化项进行半监督对抗训练算法。实验证明,相较于现有算法,我们提出的算法在性能方面取得了显著的提升,并且即使有限的有标签数据量,我们的算法仍能与使用所有标签数据的监督对抗训练算法相媲美,无论是在标准准确率还是在鲁棒准确率上,比如我们的算法只使用8%的有标签数据时,在CIFAR-10数据集上与监督对抗训练算法相比表现接近。
Aug, 2023
将未标记的数据合并到半监督分类问题的一个新框架中,借助分布鲁棒优化 (Distributionally Robust Optimization) 和自我监督训练的组合,提供了新的错误界限以及将离域样本用于缩小泛化差距的方法。
Sep, 2023