Patch Shortcuts：可解释的代理模型有效地发现黑盒漏洞

CVPRApr, 2021

Patch Shortcuts：可解释的代理模型有效地发现黑盒漏洞

Patch Shortcuts: Interpretable Proxy Models Efficiently Find Black-Box Vulnerabilities

Julia Rosenzweig, Joachim Sicking, Sebastian Houben, Michael Mock, Maram Akila

TL;DR该研究探讨了如何使用 BagNet 模型作为黑盒模型的代理，通过其内部的可解释性来检测神经网络的非语义决策，以减少机器学习模型在危险应用中存在的风险。

Abstract

An important pillar for safe machine learning (ML) is the systematic mitigation of weaknesses in neural networks to afford their deployment in critical applications. An ubiquitous class of →

machine learning neural networks safety risks explainability methods black-box setups

发现论文，激发创造

利用机器学习快捷方式保护公开可用的数据

设计了一种方法来通过加入机器学习快捷方式来防止网络爬虫，使得采集的数据无法使用，同时在人类感知中很难察觉，以此作为对非法数据采集的积极保护。

Oct, 2023

通过有意义的扰动提供黑匣子的可解释性解释

该研究提出了一种适用于任何黑盒机器学习算法的通用解释框架，并将其特化以找到对分类器决策最负责的图像部分。该方法是模型无关且可测试的，因为它基于明确且可解释的图像扰动。

Apr, 2017

逆向工程黑盒神经网络

研究表明，通过一系列查询可以暴露神经网络的架构、优化程序或训练数据等属性，因此黑匣子神经网络更容易受到各种攻击，但该技术也可以用于更好地保护个人隐私。

Nov, 2017

打鼹鼠困境：缩短路径同时引发多重问题

通过提出具有多个偏差的数据集和评估集，研究了计算机视觉模型在存在多个捷径时的表现，并提出了一个简单而有效的方法，可以在不引起 “打地鼠” 问题的情况下解决多个捷径问题。

Dec, 2022

使用互信息监控快捷学习

研究深度神经网络在超出分布数据的泛化失败问题，提出使用互信息作为度量标准，监测快捷学习现象。

Jun, 2022

深度神经网络的快捷学习

本文介绍深度学习中的 shortcut learning 问题，该问题用于在标准基准测试中表现良好的决策规则在更具挑战性的测试条件下失败，作者提出了一些模型解释和基准测试的建议，以改善从实验室到真实世界应用的稳健性和可迁移性。

Apr, 2020

利用辅助标签的因果推理式快捷方式消除

通过使用辅助标签并强制执行因果图所隐含的条件独立性，鼓励学习不依赖于简便但不可靠关联的预测模型的灵活、因果驱动的方法是一种训练鲁棒预测器的方式。我们展示了这种因果驱动的正则化方案导致更加健壮的估计器，在分布转移下具有良好的泛化和更好的有限样本效率，即使没有简捷方式存在。

May, 2021

可用性攻击创造快捷方式

本研究探讨了可用性攻击的特性，发现这些攻击的扰动基本上是线性可分的，可以作为一种 * machine learning * 算法的快捷方式，进而合成线性可分的攻击扰动，以便更简单、更快捷地对数据进行攻击。

Nov, 2021

早期训练动态视角下的快捷学习

本文通过观察 Deep Neural Networks (DNNs) 内部神经元的学习动态，提出了易学特征会导致 Shortcut Learning 的假设，并用实验验证了此假设。文章主张在早期的训练动态中监测模型的表现而非仅仅监测模型准确率。

Feb, 2023

自监督表示学习的自动快捷方式移除

自我监督视觉表示学习中，通过预训练任务训练特征提取器，提出了使用 lens 网络来减少对抗攻击漏洞，通过对图片进行微小修改，最大限度地减少了自我监督学习中的 “捷径” 特征的影响。

Feb, 2020