利用对抗检查器识别模型弱点

Nov, 2019

Identifying Model Weakness with Adversarial Examiner

Michelle Shu, Chenxi Liu, Weichao Qiu, Alan Yuille

TL;DR本文提出应用对抗性检验器系统性地探索输入数据空间，以识别机器学习模型的弱点，从而避免性能估计过度乐观。通过在ShapeNet对象分类上的实验，证明了对抗检验器可以成功地强调模型的弱点。

Abstract

machine learning models are usually evaluated according to the average case performance on the test set. However, this is not always ideal, because in some sensitive domains (e.g. autonomous driving), it is the worst ca

发现论文，激发创造

分析最近邻居对于对抗样本的鲁棒性

本文针对分类器的测试攻击问题，引入了一种理论框架，类似于偏差-方差理论，并使用该框架对一种典型的非参数分类器 - k最近邻分类器的鲁棒性进行了分析，并提出了一种新的修改的1最近邻分类器，其在大样本极限下具有良好的鲁棒性。

Jun, 2017

对抗性风险与评估弱攻击的危害

本文研究了针对对抗性样本的最新的防御方法和评估对抗性鲁棒性的方法，提出了“对抗风险”作为实现模型鲁棒性的目标，并将常用的攻击和评估度量框架化为真正的对抗风险的可行替代目标，指出模型可能会优化该替代目标而不是对抗风险，发展了识别混淆模型和设计透明模型的工具和启发式方法，并通过重新调整梯度自由优化技术为对抗攻击来证明这在实践中是一个重大问题，这被用于将几个最近提出的防御的准确性降低到接近零。我们希望我们的公式和结果能够帮助研究者开发更强大的防御措施。

Feb, 2018

严格的代理评估:揭示灾难性失败的对抗方法

本文提出了一种基于对抗评估的学习系统评估方法，旨在解决现有强化学习代理评估方法可能会缺失失败情况的问题，通过对抗选择情况进行评估，可大幅缩短评估时间，实验结果表明该方法在可靠性和效率上都有极大的提升。

Dec, 2018

一组不同参数攻击的集成用于可靠评估对抗鲁棒性

本文提出两个方法以提高PGD攻击的效率，进而结合现有方法构成一个全新的攻击集合，用于测试对抗鲁棒性，并在50多个模型上进行了测试，发现一些已经被攻破的防御机制。

Mar, 2020

人脸识别模型的模拟对抗测试

通过模拟器进行对抗测试，寻找机器学习模型的弱点并提供一种方法来发现这些弱点。该方法应用于人脸识别模型中，显示在常规的验证数据集之外，可以发现真实数据集训练的模型存在的弱点，包括对抗性合成人脸等。

Jun, 2021

加强对抗性容错性评估的置信度

该研究提出了一种测试方法以识别弱攻击和防御评估，为了增强透明和信心，将攻击单元测试作为未来强度评估的重要组成部分。

Jun, 2022

AdvCheck: 通过本地梯度检查特征对抗性示例

介绍一种新的针对深度神经网络攻击问题的检测方法 AdvCheck，其利用 local gradient 对对抗样本和误分类自然输入进行精确区分，能够获得比现有技术更高的检测率和更低的计算成本。

Mar, 2023

从对抗性武器竞赛到模型为中心的评估：推进自动化统一鲁棒性评估框架

本文提出了一种统一的自动鲁棒性评估框架RobTest，通过针对模型能力建立鲁棒性评估维度、生成不同维度下的对抗样本，最终实现自动鲁棒性评估。实验结果表明，该框架能有效评估RoBERTa模型的鲁棒性。

May, 2023

一种评估机器学习分类器对抗距离的实用方法

本文探讨了机器学习分类器在面对对抗性输入时的稳健性评估问题，指出现有计算方法在复杂模型中存在挑战。通过采用迭代对抗攻击和认证方法，提出了一种更全面的评估对抗稳健性的新方式，并发现该方法能够提供更有价值的对抗距离估计，从而推动机器学习分类器的安全使用。

Sep, 2024

一种成本意识的神经网络对抗鲁棒性方法

本研究针对生产级AI模型在面对对抗攻击时的鲁棒性评估问题，提出了一种基于生存分析的方法，旨在有效预测模型在对抗噪声下的表现。研究表明，虽然更强大的硬件可以缩短训练时间，但其所需的成本和功耗远超准确率的边际提升，从而揭示了在模型优化过程中需综合考虑性能和成本的关键洞见。

Sep, 2024