鲁棒性一致的对抗训练用于安全机器学习模型更新

Feb, 2024

鲁棒性一致的对抗训练用于安全机器学习模型更新

Robustness-Congruent Adversarial Training for Secure Machine Learning Model Updates

Daniele Angioni, Luca Demetrio, Maura Pintor, Luca Oneto, Davide Anguita...

TL;DR我们展示了机器学习模型的周期性更新可能导致负面翻转，进而影响模型的安全性和性能，为此我们提出了 robustness-congruent adversarial training 方法用于解决这个问题。实验证明，我们的方法可以有效降低负面翻转问题，提高模型的准确性和鲁棒性。

Abstract

Machine-learning models demand for periodic updates to improve their average accuracy, exploiting novel architectures and additional data. However, a newly-updated model may commit mistakes that the previous model did not make. Such misclassifications are referred to as negative flips,

machine learning models negative flips adversarial examples adversarial training robust models

发现论文，激发创造

正一致性训练：朝着无回归模型更新的方向

本文提出了一种名为 Focal Distillation 的方法，该方法利用 PC 训练减少了负的预测错误，并最大化地维护了与参考模型的一致性。

Nov, 2020

准确性和鲁棒性是否相关？

通过利用深度卷积神经网络生成对抗性样本，然后比较不同的生成技术在产生图像质量和测试机器学习模型鲁棒性方面的差异，最后在跨模型对抗迁移上进行了大规模实验，研究结果表明对抗性样本在相似的网络拓扑间是可传递的，并且更好的机器学习模型更不容易受到对抗性样本的攻击。

Oct, 2016

在连续学习中维持对抗性鲁棒性

机器学习系统的安全性和可靠性需要对抗鲁棒性。然而，由于神经网络在学习新任务时容易忘记先前的对抗鲁棒性，复杂的防御算法所获得的对抗鲁棒性很容易被抹去。为了解决这个问题，我们提出了一种名为 “双梯度投影” 的方法，通过将权重更新的梯度正交投影到两个关键子空间上，实现连续鲁棒学习，这两个子空间一个用于稳定平滑的样本梯度，另一个用于稳定神经网络的最终输出。四个基准测试的实验结果表明，我们提出的方法有效地保持了连续鲁棒性，对抗强对抗攻击的效果优于结合现有防御策略和连续学习方法的基准线组成的方法。

Feb, 2024

通过预测和解释来提高模型的稳健性的对抗训练

本文提出了一种名为 FLAT 的特征级对抗性训练方法，该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致，从而提高模型对预测和解释方面的鲁棒性。

Mar, 2022

通过一致性正则化提高神经网络的认证鲁棒性

该研究探讨了虚假分类样本导致的不一致性，并通过添加新的一致性正则化项来更好地利用虚假分类样本，提出了一种新的防御规则项，称为 Misclassification Aware Adversarial Regularization（MAAR），在 CIFAR-10 和 MNIST 数据集上实现了最佳的认证鲁棒性和可比较的准确性。

Dec, 2020

朝着高准确度的概率鲁棒性认证

通过提出一种新的方法，同时追求高准确性和具有认证的概率鲁棒性，我们的实验显示该方法在多个模型和数据集上的认证率和准确性方面明显优于现有方法。

Sep, 2023

对比对抗训练中通过认知失调缓解实现健壮性

本文介绍了一种新的神经网络训练框架，通过将对比学习与对抗训练相结合，增强了模型对对抗攻击的鲁棒性，同时保持高干净度的准确性。作者发现对比学习有助于提高对抗性鲁棒性，并使用 CIFAR-10 数据集验证了他们的方法，发现其优于其他监督和自监督方法。

Mar, 2022

为强韧性还是为公平：走向对抗训练中的公平性

研究发现，对于一些平衡的数据集，在执行 Adversarial training algorithms 时将出现不同类别的数据准确度和鲁棒性的严重差异，因此提出了一种名为 Fair-Robust-Learning 的框架以解决这种不公平的问题，并在实验中验证了其有效性。

Oct, 2020

通过对抗性训练提高机器学习的稳健性

研究了机器学习的鲁棒性，使用集中式和分散式环境进行对抗训练，结果显示比现有研究提高了 18.41% 和 47% 的准确性，并提出了独立同分布和非独立同分布数据的 IID 数据共享方法，可提高自然准确性和鲁棒准确性。

Sep, 2023

关于强大而准确分类器的连续性

创建可靠的学习模型、了解对抗性示例现象、解释连续假设与其稳健性和准确性的不兼容性。

Sep, 2023