通过最后层反演进行单模型归因

May, 2023

Single-Model Attribution via Final-Layer Inversion

Mike Laszkiewicz, Jonas Ricker, Johannes Lederer, Asja Fischer

TL;DR本研究提出一种基于final-layer inversion和异常检测的FLIPAD方法，用于开放世界条件下的单模型归因，以证明知识产权的盗窃。该方法在理论上具有可行性和计算效率，并且在实验中表现优于现有方法。

Abstract

Recent groundbreaking developments on generative modeling have sparked interest in practical single-model attribution. Such methods predict whether a sample was generated by a specific generator or not, for insta

发现论文，激发创造

深度生成模型中的虚假样本：是错误还是特征？

本文研究生成模型中出现的错误样本（spurious samples），发现它们与模型学习到的数据集具有结构上的相似性，因此不能完全消除，否则会影响模型对测试样本的建模能力。

Oct, 2018

使用典型性检测深度生成模型的超出分布输入

本文提出了一种使用模型似然值的统计原理测试方法，可以检测深度生成模型对于分布外样本的高概率密度区域，实验验证了该方法在多个挑战性场景中成功检测出分布外数据集。

Jun, 2019

逐层反转深度生成模型

本文研究在ReLU激活的深度生成模型中，通过解决线性规划问题进行单层反演，证明了多层反演是NP难问题，提出了可在多项式时间内进行精确恢复的算法，并为恢复嘈杂观测提供了可证明的误差界限。

Jun, 2019

神秘揭露者：针对深度神经网络的生成模型反演攻击

本文介绍了一种新型攻击方法——生成模型反演攻击，它可以显著地提高逆转深度神经网络的准确率，攻击者使用部分公共信息学习分布先验，引导逆转过程，并且通过实验证明了差分隐私在该攻击下的防御效果有限。

Nov, 2019

变分模型反演攻击

本研究提供了深度学习中一种重要的隐私保护策略，即基于变分自编码器和生成模型的攻击方法，可以更加准确地生成包含敏感数据的样本，并保持样本的多样性和真实性。

Jan, 2022

深度伪造网络结构归属

本文首次研究深度伪造网络架构归属问题，并提出了一种名为DNA-Det的有效解决方案，在多个交叉测试设置和大规模数据集上的广泛实验证明了其有效性。

Feb, 2022

生成图像的无修改和模型无关的来源归属

本文提出了一种无需更改且与模型无关的图像源头归属方法，该方法通过对图像生成模型进行输入反向工程，即对特定图像的特定模型的输入进行反转来实现。利用逆向工程的重构损失确定图像来源的方法有效地区分了特定生成模型的生成图像和其他图像，包括不同模型生成的图像和真实图像。

May, 2023

概率黑盒异常归因的生成扰动分析

我们提出了一个概率异常归因框架，可以在黑盒回归情况下计算每个输入变量的归因得分的概率分布，从而解释与黑盒模型的异常偏差。我们展示了主流的模型无关解释方法在这个任务中不适用，并提出了一个新的框架，可以计算归因得分的预测均值和量化不确定性。我们介绍了一种变分贝叶斯算法，用于推导每个变量归因得分的分布。据我们所知，这是第一个不受偏差影响的概率异常归因框架。

Aug, 2023

关于逆转生成模型的细粒度难度

生成模型反演问题的计算复杂性上界，包括精确反演和近似反演中的新的若干复杂性下界，以及使用约化方法从$k$-SAT问题得出的强指数时间假设(SETH)下的精确反演的计算复杂性的下界。

Sep, 2023

通过全局探索增强模型可解释性的局部归因

本研究解决了人工智能模型可解释性不足的问题，提出了一种局部归因（LA）算法，这一算法通过定义局部空间及其属性，采用定向和非定向探索阶段来生成涵盖局部空间的中间状态。实验证明，相较于现有最先进的归因方法，LA算法在归因有效性上平均提高了38.21%。

Aug, 2024