对抗性鲁棒基于记忆的持续学习器
机器学习系统的安全性和可靠性需要对抗鲁棒性。然而,由于神经网络在学习新任务时容易忘记先前的对抗鲁棒性,复杂的防御算法所获得的对抗鲁棒性很容易被抹去。为了解决这个问题,我们提出了一种名为 “双梯度投影” 的方法,通过将权重更新的梯度正交投影到两个关键子空间上,实现连续鲁棒学习,这两个子空间一个用于稳定平滑的样本梯度,另一个用于稳定神经网络的最终输出。四个基准测试的实验结果表明,我们提出的方法有效地保持了连续鲁棒性,对抗强对抗攻击的效果优于结合现有防御策略和连续学习方法的基准线组成的方法。
Feb, 2024
该研究针对深度学习在不断学习模型中容易受到对抗攻击的问题提出了 Task-Aware Boundary Augmentation (TABA) 的防御方法,并在 CIFAR-10 和 CIFAR-100 上进行了广泛的实验,证明了对抗训练和 TABA 在抵御对抗攻击方面的有效性。
Mar, 2023
本文提出了一种对抗背景攻击的新型防御性框架,该框架利用了攻击者隐藏后门模式的能力,提出了学习一个更加可感知(更强大)的模式以抵抗攻击的思想,同时通过使用多种连续学习基准数据集来证明其有效性。
Apr, 2023
本研究旨在使用混合方法来解决连续学习中遗忘的问题,该方法结合了体系结构生长来防止任务特定技能的遗忘,并采用经验回放方法来保存共享技能。研究结果表明,我们的混合方法在单个数据集和多个数据集的类增量学习中都表现优异。
Mar, 2020
通过在 LLM 的连续嵌入空间中计算对抗攻击来提高对离散攻击的鲁棒性,我们提出了一种快速的对抗训练算法 (C-AdvUL),通过对对抗行为数据集上计算的连续嵌入攻击使模型变得鲁棒;我们还引入了 C-AdvIPO,这是一种对抗的 IPO 变体,不需要效用数据进行对抗性鲁棒对齐。我们的实证评估表明,这两个算法显著提高了 LLM 对离散攻击的鲁棒性,并保持了效用。这些结果表明,对连续扰动的鲁棒性可以外推到离散的威胁模型,为大规模对抗训练算法的鲁棒对齐 LLM 提供了一条路径。
May, 2024
本文定义了一个新问题:不断出现的少样本学习;提出了 Continual Meta-Learner 来解决此问题,并在 MiniImageNet 和 CIFAR100 两个图像数据集上进行了广泛实验,表明 CML 在少量样本学习任务的分类准确性方面实现了现有最先进水平并避免了灾难性遗忘。
Jul, 2022
本文提出了一种可扩展的对抗式连续学习(SCALE)方法,使用参数生成器将共同特征转换为任务特定特征和单个判别器在对抗游戏中诱导共同特征。该方法通过类元学习的方式进行训练,使用三个损失函数的新组合。SCALE 方法在准确性和执行时间方面优于突出的基线。
Sep, 2022
本文探究 EWC 算法对抗恶意攻击的漏洞,发现通过在训练中引入微小的错误信息,恶意攻击者能够逐步地、故意地让模型遗忘数据,从而掌控模型。我们展示了针对 MNIST 数据集不同变种的后门攻击,并证明只需要在不到 1% 的训练数据中注入恶意样本,即可轻松破坏神经网络的记忆。
Feb, 2020
研究了机器学习的鲁棒性,使用集中式和分散式环境进行对抗训练,结果显示比现有研究提高了 18.41% 和 47% 的准确性,并提出了独立同分布和非独立同分布数据的 IID 数据共享方法,可提高自然准确性和鲁棒准确性。
Sep, 2023