利用对抗检查器识别模型弱点
本文针对分类器的测试攻击问题,引入了一种理论框架,类似于偏差-方差理论,并使用该框架对一种典型的非参数分类器 - k最近邻分类器的鲁棒性进行了分析,并提出了一种新的修改的1最近邻分类器,其在大样本极限下具有良好的鲁棒性。
Jun, 2017
本文研究了针对对抗性样本的最新的防御方法和评估对抗性鲁棒性的方法,提出了“对抗风险”作为实现模型鲁棒性的目标,并将常用的攻击和评估度量框架化为真正的对抗风险的可行替代目标,指出模型可能会优化该替代目标而不是对抗风险,发展了识别混淆模型和设计透明模型的工具和启发式方法,并通过重新调整梯度自由优化技术为对抗攻击来证明这在实践中是一个重大问题,这被用于将几个最近提出的防御的准确性降低到接近零。我们希望我们的公式和结果能够帮助研究者开发更强大的防御措施。
Feb, 2018
本文提出了一种基于对抗评估的学习系统评估方法,旨在解决现有强化学习代理评估方法可能会缺失失败情况的问题,通过对抗选择情况进行评估,可大幅缩短评估时间,实验结果表明该方法在可靠性和效率上都有极大的提升。
Dec, 2018
本文提出两个方法以提高PGD攻击的效率,进而结合现有方法构成一个全新的攻击集合,用于测试对抗鲁棒性,并在50多个模型上进行了测试,发现一些已经被攻破的防御机制。
Mar, 2020
通过模拟器进行对抗测试,寻找机器学习模型的弱点并提供一种方法来发现这些弱点。该方法应用于人脸识别模型中,显示在常规的验证数据集之外,可以发现真实数据集训练的模型存在的弱点,包括对抗性合成人脸等。
Jun, 2021
介绍一种新的针对深度神经网络攻击问题的检测方法 AdvCheck,其利用 local gradient 对对抗样本和误分类自然输入进行精确区分,能够获得比现有技术更高的检测率和更低的计算成本。
Mar, 2023
本文提出了一种统一的自动鲁棒性评估框架RobTest,通过针对模型能力建立鲁棒性评估维度、生成不同维度下的对抗样本,最终实现自动鲁棒性评估。实验结果表明,该框架能有效评估RoBERTa模型的鲁棒性。
May, 2023
本文探讨了机器学习分类器在面对对抗性输入时的稳健性评估问题,指出现有计算方法在复杂模型中存在挑战。通过采用迭代对抗攻击和认证方法,提出了一种更全面的评估对抗稳健性的新方式,并发现该方法能够提供更有价值的对抗距离估计,从而推动机器学习分类器的安全使用。
Sep, 2024
本研究针对生产级AI模型在面对对抗攻击时的鲁棒性评估问题,提出了一种基于生存分析的方法,旨在有效预测模型在对抗噪声下的表现。研究表明,虽然更强大的硬件可以缩短训练时间,但其所需的成本和功耗远超准确率的边际提升,从而揭示了在模型优化过程中需综合考虑性能和成本的关键洞见。
Sep, 2024