- 利用黑盒 LLMs 学习纠正 QA 推理
该论文提出了一种名为 CoBB 的新方法,通过使用一个训练过的适应模型来将原始黑盒 LLM 的通常不完美的推理转化为正确或改进的推理,以显著提高各种 QA 基准的推理准确性。
- 针对受攻击方策略访问有限的强化学习的行为目标攻击
研究考虑攻击强化学习代理,其中对手通过对受害者的状态观察添加敌对修改来控制受害者的行为,提出了一种在黑盒和无盒设置中操纵受害者代理的新方法,无需特定环境启发式,并通过分布匹配问题解决现有的模仿学习算法,实证评估表明该方法攻击性能优于基准方法 - 语言模型水印的黑盒检测
水印技术被视为一种有效的方法来检测 LLM 生成的文本,此研究针对三种最流行的水印方案家族开发了严格的统计测试,使用有限数量的黑盒查询来检测它们的存在,并发现当前的水印方案比之前认为的更容易被检测到。
- 在一个草堆中找到针:隐形水印检测的黑盒方法
本文提出了水印检测 (WMD) 方法,它是第一个在黑盒和无注释条件下进行隐形水印检测的方法。WMD 能够在给定的参考数据集中检测任意水印,使用一个未带水印的干净数据集作为参考,而不依赖于特定的解码方法或水印技术的先验知识。我们使用偏移学习的 - 黑盒解密:基于置信度的模型反演攻击与分布转移
本文提出了一种称为 CG-MI 的置信度引导模型反演攻击方法,利用预训练的可公开获取的生成对抗网络(GAN)的潜在空间作为先验信息和无梯度优化器,在不同数据分布的黑盒设置中实现了高分辨率的模型反演攻击。实验证明,我们的方法在 Celeba - ACL利用类别概率进行黑盒句级攻击
使用类概率以进行黑盒子句级攻击的新算法,通过与基准模型和基准数据集的比较进行全面评估,研究了类概率在攻击成功方面的有效性,并探讨了在黑盒子句级攻击中使用类概率是否值得或实用。
- 通过局部混合和自适应步长提高对抗样本的转移性能
黑盒对抗生成框架通过增强输入的多样性和自适应步长来生成可转移的对抗样本,具有超过现有基准的表现。
- IPR-NeRF:所有权验证与神经亮度场相遇
该研究提出了一种全面的知识产权 (IP) 保护框架,名为 IPR-NeRF,用于保护 Neural Radiance Field (NeRF) 模型的版权,其中包括黑盒模式和白盒模式两种设置。
- ICCVOMG-ATTACK:自监督的流形上生成可传递的回避攻击
我们引入了一种自我监督、计算成本低的方法,用于在未知黑盒设置中生成对抗性样本,这些样本通过适应表示学习技术生成,并鼓励与数据分布相似,从而与受攻击的模型相关性更高,在攻击训练模型时与最先进方法相当有效,在攻击未知模型时则显著更有效,表明在针 - 文字 - 图像模型:反事实解释的黑盒操作方法
该研究提出了一种基于蒸馏的黑盒逆因果解释方法,使用只有图像和其预测结果的信息生成对分类器预测进行改变所需的最少必要特征,从而达到与其他方法相当的解释效果。
- 通过鲁棒的 UNet 降噪器进行证明的零阶黑盒防御
本篇文章提出了一种证明 ZO 预处理技术,使用仅基于模型查询的黑盒模型,通过提前将 RDUNet 附加到黑盒模型中来确保黑盒模型对高维数据集进行训练时的鲁棒性,进而提出了 DS 和 AE-RUDS 两种新的黑盒防御机制,并在四个分类数据集上 - 深度神经网络的解释处理
本文发现了一个问题:通过微调输入图像,我们可以演示图像识别的解释方式可以通过进化策略对其进行任意操作。通过我们的 Adversarial XAI 算法 AttaXAI,我们能够在不使用梯度或其他模型内部的情况下,成功地在黑盒设置下操作解释方 - KDD知识增强的黑盒推荐算法攻击
该论文提出了一种利用知识图谱加强黑盒攻击框架 (KGAttack) 的方法,将深度增强学习技术无缝集成到层次化策略网络中,以生成虚假用户文件并进行黑盒攻击。在各种真实世界数据集上的全面实验表明了所提出的攻击框架在黑盒设置下的有效性。
- ICML基于贝叶斯优化的离散序列数据黑盒对抗攻击的高效查询和可扩展性
本文提出了一种使用贝叶斯优化方法对黑盒序列数据模型进行查询有效的对抗样本攻击,有效地提高了攻击成功率并且减小了查询次数和修改率。
- MMGAN 内部模式崩溃的黑盒诊断和校准:一项试点研究
本文探讨了生成对抗网络(GANs)中的模式崩溃问题,提出了一种基于采样的统计工具来诊断和校准 GANs 中的内部模式崩溃。研究表明,这种状态仍然很普遍,并且在黑匣子设置中可以诊断和校准。
- QAIR: 实用的查询效率高的黑盒攻击图像检索
本研究通过 Quantifying the Attack Effects on the Partial Retrieved List 方法,提出了第一种针对黑盒情况下图片检索的基于查询的攻击(QAIR)方法,并采用了新的基于相关性的损失设计 - 无数据模型提取
该研究提出了一种基于无数据的知识迁移技术进行模型抽取的方法,解决了模型抽取攻击需要训练数据集的限制,并在黑盒模型中通过逼近梯度和选择合适的损失函数,实现了对珍贵模型的精准复制。
- AAAI使用单张图片生成具有对抗性但不引人注目的修补
使用多尺度生成器和辨别器以及最小最大训练,在一个图像中生成对抗性但难以察觉的贴片,该方法在白盒和黑盒设置中均表现出强大的攻击能力,并保持物理世界中的攻击能力。
- CVPRDaST: 对抗攻击的无数据替代训练
本文提出了一种无需实际数据就能够获取对抗黑盒攻击的替代模型的数据自由替代训练方法 (DaST), 该方法利用一种特别设计的生成式对抗网络(GAN)来训练替代模型,实验表明,DaST 产生的替代模型可以取得竞争性的性能,并且是第一个无需任何真 - 谁是真正的 Bob? 对说话人识别系统的对抗攻击
本研究是关于演讲者识别系统的对抗攻击的研究,提出了一个名为 FAKEBOB 的攻击方法,并在开源和商业系统上对其进行了针对性攻击以及人类的主观测试。研究表明,现有的四种抵御语音对抗攻击的方法在对抗 FAKEBOB 时都失效,需要寻找更有效的