DREAM: 黑匣子模型逆向工程特征提取
这篇论文提出了GenAttack——一种基于遗传算法的无梯度黑盒对抗攻击优化技术,在MNIST、CIFAR-10和ImageNet数据集上成功地生成了对抗性样本,攻击了最新的图像识别模型,且所需的查询量比之前的攻击方法少了几个数量级,且还能攻击一些针对对抗性训练的防御措施,通过实验证明了遗传算法在黑盒攻击研究中的可行性和前景。
May, 2018
本文介绍了模型提取攻击的两种不同目标——准确度和等效性,并介绍了对于直接提取模型权重的功能性提取攻击的扩展,以及在学术数据集和一种使用10亿专有图像训练的最先进图像分类器上进行的实验。
Sep, 2019
本篇论文研究了源领域无标签数据的黑盒非监督域适应 (B$^2$UDA) 问题,在此基础上提出了一种名为 Iterative Learning with Noisy Labels (IterLNL) 的简单有效方法,通过黑盒模型作为噪声标签工具进行噪声标注和学习,迭代解决该问题。实验表明,无需源数据和源模型,IterLNL 的表现可与传统有标签源数据的 UDA 方法相媲美。
Jan, 2021
本文提出了一种基于生成模型的黑匣子攻击方法,用于探究深度神经网络的可迁移性,实验结果表明本文提出的方法在粗粒度及细粒度领域中均优于现有方法。
Jan, 2022
本文提出了一种名为RAIN的新方法,它使用输入级别和网络级别正则化方法,包括相位混合数据增强技术和子网络蒸馏机制,从而在黑盒域自适应中实现了最先进的性能,以此缓解源域上的过拟合问题,并提高目标模型的分类一致性。
Aug, 2022
本文提出了一个基于零样本图像净化的后门防御框架,能够在黑盒模型中有效抵御各种攻击,并无需任何关于被攻击模型的内部信息或清洁/污染样本的先验知识。该框架涉及两个步骤:第一步对污染图像进行线性变换以消除触发模式,第二步使用预训练扩散模型恢复变换移除的缺失语义信息,最终得到可应用于零样本情况的高保真净化图像。在多个数据集上进行的实验结果表明,与现有后门防御基线相比,该框架具有明显的优势。
Mar, 2023
本研究旨在解决源保密的问题,提出了一种基于知识蒸馏的两阶段方法,该方法只使用源模型的输出和目标数据来适应深度神经网络,并在三个跨域分割任务上取得了惊人的结果。
May, 2023
深度神经网络在敏感应用领域(如医疗保健和安全)中的使用日益增多,了解这些模型能推断出什么样的敏感信息是必要的。本研究探讨了当从模型API中删除领域信息是否能保护模型免受攻击,并提出了自适应领域推断攻击(ADI)方法,通过建立概念层次结构和调整未知训练数据中叶子概念出现的可能性,成功地提取了部分训练数据并改善了模型反转攻击的性能。
Dec, 2023
这篇论文介绍了一种增强的方法来确定机器学习模型的数据领域和特定属性,并使用图像嵌入模型作为编码器和生成模型作为解码器。该方法通过迭代改进描述并生成更具体的图像,以识别模型输入领域的特定属性,为深度学习模型的详细法医分析铺平了道路。
Feb, 2024