- 个性化扩散模型中的快速学习探究与防御
通过捷径学习视角细致观察个性化扩散模型的微调过程,提出了一种能解释现有扰动方法基本捷径学习漏洞的假设。基于这一观察,提出了一种系统性方法来保持训练绩效并通过纯化重排潜在图像和其语义含义,还引入了负令牌的对比学习,以解耦所需的干净身份学习和不 - DPO: 三维物体检测中的测试时间适应性双扰动优化
利用 LiDAR 技术进行 3D 目标检测中,我们提出了双扰动优化的方法 (TTA-3OD) 来解决测试阶段适应性问题,通过最小化锐度来保证模型对数据细微变化具有弹性,从而增强了适应性过程的泛化性能。通过引入对抗扰动来更好地模拟嘈杂的测试环 - 基于对说话人嵌入进行对抗扰动的异步语音匿名化
本文研究声音匿名化技术,重点探讨改变语音特征以防止机器识别但保留人类感知的异步声音匿名化方法,采用包含说话人解缠机制的语音生成框架生成匿名语音,并通过对说话人嵌入进行对抗扰动改变说话人特征,同时通过控制扰动强度保留人类感知。实验结果表明,在 - CVPR利用新数据重现旧类别的无示范持续学习
通过对当前样本进行对抗性扰动,使其在嵌入空间中的嵌入接近旧模型的旧类别原型,从而估计无忆样本方法中的特征漂移并相应地进行原型补偿。实验证明,该方法在嵌入空间中更好地追踪了原型的移动并在多个标准连续学习基准测试以及细粒度数据集上胜过了现有方法 - IJCAI通过隐式对抗数据增强提升模型的弹性
通过融入对抗性和反对抗性扰动分布,增强样本的深度特征,适应性调整学习困难以适应每个样本的特征。同时,开发了一种基于元学习的框架,通过引入增强的效果并跳过显式的增强过程,优化分类器。在长尾学习、广义长尾学习、嘈杂标记学习和子种群转移学习等四种 - MMCert:多模态模型的可证明防御机制抵御对抗攻击
提出了 MMCert,这是对多模态模型实施机器学习攻击的第一个认证防御方法,并通过实验结果显示其优于现有认证方法。
- CVPR友好的锐度感知最小化
SAM 的关键组件有助于改进模型泛化性能,而 F-SAM 则通过移除全梯度成分并利用随机梯度噪声来进一步提高模型的泛化性能。
- 评估大型语言模型安全性的因果分析
这项研究提出了一个轻量级因果分析框架,应用于大型语言模型,分析其存在的安全问题,尤其是对抗性扰动和特洛伊攻击,并发现了对模型造成有害提示过拟合的现象,以及一种有效的特洛伊攻击方法。
- MimicDiffusion:通过模仿清洁扩散模型净化对抗扰动
基于扩散的对抗净化技术 MimicDiffusion 直接近似扩散模型的生成过程,以清晰图像作为输入,通过分析使用清晰图像和对抗样本时的引导项的差异,通过曼哈顿距离和两种引导策略净化对抗扰动,逼近清晰扩散模型,实验证明 MimicDiffu - EMNLPRoAST:通过选择性训练对语言模型进行对抗性扰动的鲁棒性增强
RoAST 是一种简单而有效的微调技术,通过在微调期间引入对抗性扰动,并且在相对重要性上选择性地更新模型参数,以提升语言模型的多角度鲁棒性。通过统一评估微调的语言模型在四个代表性的鲁棒性角度下,我们证明了 RoAST 相对于最先进的微调方法 - 因果公平度量:连接因果性、个体公平性和对抗鲁棒性
通过引入基于因果结构的因果公平度量、保护性因果干扰以及度量学习的方法,本研究解决了机器学习模型漏洞暴露、公平性和度量估计等实际问题。
- 多攻击: 多个图像 $+$ 相同的对抗性攻击 $ o$ 多个目标标签
我们展示了一种能够轻松设计出单个对抗性扰动 P,将 n 个图像 X1,X2,...,Xn 的类别从它们的原始未扰动类别 c1,c2,...,cn,变为所需(不一定相同的)类别 c*1,c*2,...,c*n 的技术。这种技术我们称之为 “多 - ICCV下游无关对抗样本
该论文提出了 AdvEncoder,这是第一个基于预训练编码器生成无下游限制通用对抗样本的框架,在只输出特征向量而非分类标签的情况下,通过高频成分信息和生成式攻击框架构造对抗性扰动 / 补丁来攻击下游任务。实验证明,攻击者可以成功地攻击下游 - 利用图像和声音进行多模态 LLMs 中的间接指令注入
图像和声音可被用于多模态 LLMs 中的间接提示和指令注入,攻击者通过对图像或音频进行意义相关的干扰并使其融入其中,从而使模型输出攻击者选择的文本和 / 或遵循攻击者指令的后续对话,我们通过几个概念验证实例来说明这种攻击,针对的模型为 LL - 可见 - 红外视频人物再识别的对抗自攻击防御和时空关系挖掘
本文提出一种新的可见 - 红外视频人物再识别方法,从对抗性自攻击防御和时空关系挖掘的新角度解决了跨模态行人身份匹配的问题。同时,通过激活输入样本中包含的干扰信息来引入对抗性干扰,将对抗攻击和防御集成到一个框架中,并提出了一个以空间 - 时间 - LEAT: 通过潜在的集成攻击在现实场景中实现深度伪造的鲁棒破坏
本文提出了一种名为 “LEAT” 的简单且有效的深度伪造干扰方法,该方法攻击独立的潜在编码过程,尽管给定目标属性,也可以生成扰动输出图像。此外,我们介绍了一种规范化渐变合奏策略,用于迭代渐变攻击,旨在同时攻击各种类型的深度伪造模型。实验结果 - ACL文本分类系统中的对抗清洁标签后门攻击与防御
本文主要介绍了一种新的对抗性干净标签攻击方法,可通过对类内训练样本的对抗性扰动对训练集进行污染,同时发现一些之前文本领域仅用于标签翻转攻击的防御方法并不一定在清洗标签攻击中有效,因此需要文本特定的防御方法。
- 模拟退火自蒸馏纠正改进了对抗训练
提出一种通过生成软标签辅助来增强对抗训练模型的方法 Annealing Self-Distillation Rectification (ADR),该方法显著改善了模型的鲁棒性并且易于与其他对抗训练技术进行无缝集成。
- 无声杀手:优化后门触发器从而实现隐蔽而强大的数据投毒攻击
利用数据污染,添加即便微小干扰也能改变模型原本判断的样本分类,且添加的干扰本身难以被发现,同时在效率上有所提升的神经网络后门攻击方法。
- AAAI高维度分类输入下的高效域无关规避攻击
本文提出了一种多臂赌博算法 ——FEAT,结合正交匹配追踪和上置信界策略用于高维分类系统的误分类攻击,实验结果表明该算法在不同应用场景下具有高效的攻击效果。