- 深度学习和语言模型中注入无法检测到的后门
利用密码学技术,我们研究了机器学习模型中潜在的不可检测的后门问题,探索了外部专家公司设计模型中的潜在威胁,并引入了隐写功能来扩展神经网络后门攻击到语言模型中。
- CVPR最近不是最亲近的:实用防御量化条件下的后门攻击
通过提出 Error-guided Flipped Rounding with Activation Preservation(EFRAP)方案,我们深入研究量化条件后门(QCBs)的激活机制,并基于神经元误差范数和层间激活保留指导,提出了 - 通过微小扰动操作神经路径规划器
提出了一种在神经路径规划器中注入隐藏的恶意行为(也称为后门)的新方法,并讨论了识别这些后门的潜在技术。
- MM提升人工智能系统的安全性:一种检测深度神经网络后门的新方法
我们的研究利用先进的张量分解算法(独立向量分析、多集合规范相关分析和并行因子分析)分析训练好的深度神经网络的权重,有效地区分带后门和干净的模型,从而增强网络系统中深度学习和人工智能的安全性。
- 基于第一原理的架构神经后门
本研究提出了一种检测神经网络架构中的后门威胁的方法,并针对性地构建了一个可用于无人监督下攻击神经网络架构的任意触发器检测器,对常见的模型定义中的可疑组件进行后门检测困难性的用户研究发现,ML 开发者在 37% 的情况下只能识别常见模型定义中 - 预训练的特洛伊攻击视觉识别
本研究旨在提高人们对在实际场景中应用预训练视觉模型所面临的潜在威胁的意识,并通过提出预训练特洛伊攻击来展示其在不同下游视觉任务中的有效性。
- 利用后门操纵轨迹预测
自动驾驶车辆需要预测周围车辆的轨迹,以在不确定和复杂的交通情况下进行安全操纵。本文重点研究了轨迹预测中被忽视的安全威胁 - 后门,并调查了影响轨迹预测的四个触发器。研究结果显示,这些触发器与期望输出相关联时,能够影响先进的轨迹预测模型的输出 - AI 控制:尽管存在故意违抗改善安全
通过开发和评估能够抵御恶意破坏的安全技术(协议),我们研究了使用大型语言模型(LLMs)解决编程问题的场景,并且改进了现有的基准方法。
- AGNES: 深度神经网络安全的抽象引导框架
本文介绍了 AGNES,一种用于检测图像识别中深度神经网络(DNNs)中后门的工具,并展示了我们的工具在多个相关案例研究中比许多最先进的方法表现更好。
- 通过污染攻击在事件序列数据中隐藏后门
金融行业使用深度学习模型做出重要决策,但这导致了新的危险,因为深度黑盒模型容易受到对抗性攻击。为了在复杂的离散序列空间上植入后门,我们提供了一种方法来引入隐藏的后门,破坏模型的功能性。我们的实验研究揭示了这些影响如何在不同数据集、架构和模型 - ICML重新审视无数据知识蒸馏及其受污染教师
本文旨在探讨数据无关知识蒸馏的安全问题并提出了 Anti-Backdoor Data-Free KD,这是第一个用于缓解潜在后门被转移的数据无关 KD 方法的防御性插件。
- 利用逻辑锁定对机器学习加速器进行神经特洛伊攻击
该研究探讨了利用逻辑锁定技术在保护神经加速器的情况下破坏其安全性的可能性,通过理论上强健的攻击方法自动鉴定特洛伊键并找到了能够导致 74% 准确度下降的特洛伊键
- 使用可达性分析实现自主汽车的物理后门触发激活
本研究揭示自动驾驶车辆(AVs)面临潜在的隐藏后门威胁,提出了在交通系统中识别激活风险区域及提供相应轨迹的方法,旨在提高 AVs 的安全性和解决其面临的漏洞问题。
- 无限域约束满足问题中的计算捷径
研究 CSP 实例的后门问题,提出了一种泛化后门概念,即面向具有高元数约束的 CSP,并介绍了 sidedoors 作为对二元约束不利的替代方案,降低了算法复杂度和提高了计算效率。
- 对抗神经元剪枝净化植入后门的深度模型
通过 Adversarial Neuron Pruning (ANP) 修复易崩溃的 DNN 神经元,即可在不影响性能的情况下去除后门攻击。
- ICLR如何更一致地使用逻辑锚定在干净数据上注入后门
通过研究添加后门攻击所需的 Adversarial Weight Perturbation (AWP),提出了一种称为 “锚点损失” 的方法,通过固定模型对清洗数据的行为来提高模型的整体和实例间结果的一致性。
- 对抗权重扰动能否注入神经后门?
本文通过在模型权重空间中引入对抗扰动来注入 DNNs 的后门,揭示了使用公开可用的训练模型的安全风险。作者设计了一个复合损失,以通过投影梯度下降在原始模型的预测和所需触发器之间引入对抗性的权重扰动,并表明这些扰动在多项任务中都是有效的。
- 攻击尾部:是的,你真的可以破解联邦学习
通过理论分析和实验,研究在分布式机器学习领域,如何有效检测和保护模型免受恶意注入的后门影响。
- 源代码神经模型中的后门
本文介绍了如何在源代码任务中注入后门 (backdoors),并证明了如何使用鲁棒统计学算法来检测恶意数据。
- 深度学习模型中的盲后门
研究人员提出了一种新的方法,通过破坏模型训练代码中的损失值计算来注入后门,用于展示比以前文献中更强大的后门类型,包括单像素和物理后门以及能将模型转换为隐蔽,侵犯隐私任务的后门,同时无需修改推理时输入。攻击是盲目的:攻击者无法修改训练数据,也