对抗环境下模型不确定性的局限性

Dec, 2018

对抗环境下模型不确定性的局限性

The Limitations of Model Uncertainty in Adversarial Settings

Kathrin Grosse, David Pfaff, Michael Thomas Smith, Michael Backes

TL;DR研究机器学习模型中的对抗样本和贝叶斯神经网络的不确定性测量，并发现置信度和不确定性可能是无可疑的，即使输出是错误的；同时，对大多数任务，我们在影响不确定性和置信度方面发现微妙的差异。

Abstract

machine learning models are vulnerable to adversarial examples: minor perturbations to input samples intended to deliberately cause misclassification. While an obvious security threat, →

adversarial examples machine learning bayesian neural network uncertainty measures gaussian process classifier

发现论文，激发创造

本地化不确定性攻击

本文介绍一种新的攻击模型，即局部不确定性攻击，用于制造确定性和随机分类器的对抗样本。与其他攻击方式不同，这种攻击是局限于分类器不确定性区域进行的，这样可以制造出更难以察觉的对抗样本。

Jun, 2021

不确定性量化的对抗性攻击

机器学习模型容易受到对抗性示例的欺骗，对抗攻击针对的是不确定性量化技术，攻击的目标是操纵不确定性估计，实验结果表明这种攻击比诱导错误分类的攻击更有效。

Sep, 2023

使用对抗神经网络的机器学习不确定性

本文探讨利用对抗生成网络对高能物理数据进行分类和参数拟合的方法，通过包括之前已知的系统和理论误差，使其具有更高的可靠性和准确性。

Jul, 2018

高斯过程分类的对抗性漏洞边界

本文提出了一种防止黑客攻击，保护机器学习分类器免受对抗性样本的影响的方法，通过一个对抗边界来限制潜在的对抗攻击产生误分类的能力并测试了其效果。

Sep, 2019

对于对抗样本检测中不确定度度量的理解

研究不同类型的不确定性测量方法及其在检测对抗性例子中的应用，揭示了 MC dropout 方法的不足，提出了利用概率模型集成来提高不确定性估计质量的建议。实验证明不同不确定性测量方法在 MNIST 和狗猫分类数据集上的不同效果。

Mar, 2018

无限制的对抗样本

本研究引入了一个两人对弈的竞赛，用于评估机器学习系统的安全性和鲁棒性，针对非范数约束的对手进行研究。防御方提交机器学习模型，试图在非对手数据上实现高准确性和覆盖率，并在对抗性输入上没有自信错误。攻击者试图通过寻找任意的明确输入，在其高置信度下将错误标签分配给模型来破坏防御。我们提出了一个简单的明确数据集（“鸟或自行车”）作为本竞赛的一部分。我们希望这个竞赛能够帮助更全面地评估机器学习模型的最坏对抗风险。

Sep, 2018

不确定性中寻求合适的平衡

利用贝叶斯不确定性估计解决类别不平衡学习的问题，并且成功改进了面部验证、属性预测、数字 / 物体识别、皮肤病检测等六个基准数据集上的分类性能。

Jan, 2019

利用人工神经网络学习不确定性以改进预测性流程监控

研究了使用贝叶斯神经网络中的可学习不确定性来训练预测过程监控模型，以预测剩余时间和结果，并得出结论认为这种不确定性估计可以区分更精确和不太精确的预测，从而提高了用户对于这种预测系统的信心，在合作和以较小的数据集进行更早的实施方面具有潜在的可应用性。

Jun, 2022

深度神经分类器的偏差减少不确定性估计

本研究提出了一种基于模型历史快照的算法，用于在非贝叶斯深度神经分类中，有选择地估计高度自信点的不确定性，这解决了从已训练网络中提取不确定信号的已知方法所带来的偏差估计问题，研究表明所提出的算法比所有已知方法的不确定性估计结果更加准确。

May, 2018

两只长尾的故事

研究机器学习模型中的不确定性，提出有针对性的数据增强方法以设计出对应不同不确定性来源的干预，结果表明，噪声数据和典型数据的学习率在引入额外信息后存在显著差异。

Jul, 2021