最大不变数据扰动作为解释

ICMLJun, 2018

Maximally Invariant Data Perturbation as Explanation

Satoshi Hara, Kouichi Ikeno, Tasuku Soma, Takanori Maehara

TL;DR本研究提出了一种新的特征分数定义方法，使用最大不变数据扰动，将问题转化为线性规划，可有效识别重要输入特征，实验表明该方法在图像分类中能够有效识别图像的相关部件。

Abstract

While several feature scoring methods are proposed to explain the output of complex machine learning models, most of them lack formal mathematical definitions. In this study, we propose a novel definition of the

feature scoring machine learning models data perturbation adversarial example linear programming

发现论文，激发创造

通过对抗特征学习实现可控的不变性

本文提出了一种通过对抗学习策略学习能够抵抗特定数据因素影响的新型表示学习方法，并通过多个基准测试表明所提出的方法可以获取到不变表示，从而提高模型的泛化能力。

May, 2017

基于频率的语义相似性不可察觉对抗攻击

通过在特征表示上进行对抗攻击，使用语义相似性对分类器进行攻击，同时使用低频率约束，保证对抗样本和原始样本的感官相似性和跨数据集泛化。

Mar, 2022

用于生成普适性对抗扰动的通用无数据客观函数

本篇论文针对机器学习模型中的对抗扰动问题，提出了一种新的、通用的、不依赖于数据的目标函数，通过在多个层次上损坏提取的特征来生成图像无关的对抗扰动。实验结果表明，该目标函数相比于现有的方法具有更好的鲁棒性，能够在黑盒攻击场景下有效攻击深度学习模型，从而强调当前的深度学习模型面临着风险。

Jan, 2018

从转换后的无标签数据中提取最大边际不变特征

本文研究了对称群不变的核技术，并提出了一套基于最大边界不变特征的解决方案来解决半监督学习和单样本学习的特殊形式的问题，这被称为未标记变换问题。作为一个插图，我们设计了一个人脸识别框架，并在一个大规模半合成数据集和一个新的具有挑战性的 LFW 协议上论证了我们的方法的有效性，表现优于强基线。

Oct, 2017

使用随机最大后验扰动进行高维推断

本文提出了一种新的高维统计推断方法，称为 perturb-max，并利用随机扰动和优化来注入随机性到最大后验（MAP）预测器中，进而产生来自 Gibbs 分布的无偏样本，同时在低维扰动情况下可提高采样效率，还证明了 perturb-max 值的期望和最大扰动值之和是这些模型熵的一个自然上界，并通过测量的集中结果使得采样平均值与其期望值的偏差以样本数量的指数衰减，有效的近似期望。

Feb, 2016

类别级别的 logit 扰动

本文介绍了深度学习中特征扰动、标签扰动和 logits 向量扰动三种扰动方式，并提出了几种新的方法来扰动 logits 向量以提高模型的稳健性和泛化能力，实验结果表明了该方法的竞争性能。

Sep, 2022

自然扰动使问答更具鲁棒性

本文提出一种用人工产生的自然扰动而不是机器规则扰动，通过极小化现有数据集的扰动来使得机器学习模型对小的输入改变不敏感。在 BoolQ 数据集上的实验表明，使用自然扰动能够提高模型的鲁棒性和泛化能力，同时保持原有的高性能。

Apr, 2020

解释和利用对抗样本

机器学习模型因神经网络的线性特性容易受到对抗性扰动的影响，该现象不同于过拟合和非线性，但可以通过生成对抗性训练样本来减小 MNIST 数据集中 maxout 网络的误差。

Dec, 2014

稳健性分析解释的评估和方法

本文提出一种基于鲁棒性分析的特征解释新的评估标准，通过针对我们提出的评估标准进行优化，获得了松散且必要的解释和可以将当前预测移动到目标类的特征集。我们通过多领域实验和用户研究验证了我们评估标准和解释的有用性。

May, 2020

从图像和扰动的相互影响理解对抗性样本

通过利用 DNN logits 向量，并基于 Pearson 相关系数（PCC）分析两个独立输入的相互影响，我们提出了一种新的对抗样本分析方法。我们的结果表明，通用扰动包含显著特征，而图像对它们则表现得像噪声。利用代理数据集实现的我们发现的一种新的攻击方法，可以生成面向目标的通用对抗性扰动，其性能与使用原始训练数据的最先进基线相当。

Jul, 2020