- 使用信息瓶颈保护您的 LLMs
信息瓶颈保护器 (IBProtector) 是一种立足于信息瓶颈原理的防御机制,通过压缩和扰动提示信息,以保留目标大语言模型回应预期答案所需的关键信息,从而有效防止越狱攻击,而不过度影响响应质量或推理速度。
- 学会伪装:通过多智能体攻击者 - 伪装者游戏避免 LLM 的拒绝回应
通过多智能体进攻 - 伪装博弈方法弱化大模型的防御机制,使其能够安全回应攻击者并隐藏防御意图。
- WWW强大的联邦学习抵抗客户端训练数据分布推理攻击
通过提出 InferGuard,一个新颖的拜占庭鲁棒聚合规则,我们的防御机制在保护客户端训练数据分布推断攻击方面表现出高度的有效性,甚至对于强适应性攻击也具有很强的防御能力,并在各种实际的联邦学习场景中显著优于基准方法。
- 分布式神经网络中熵模型的弹性
通过实验证明,熵攻击可以增加传输开销高达 95%,提出一个新的防御机制,可以将受攻击输入的传输开销减少约 9%,只有约 2% 的准确度损失,并提出该防御机制可以与对抗训练等方法结合使用以进一步提高鲁棒性。
- 通过反翻译来抵御 LLMs 的越狱攻击
通过后向翻译提出了一种新的防御方法,用于保护大型语言模型免受越狱攻击,该方法明显优于其他方法,并对良性输入提示的生成质量几乎没有影响。
- Agent Smith: 一张图片能以指数速度越狱一百万多模态 LLM 智能体
本文研究了多模式大型语言模型的安全问题,其中包括对抗图像和提示的风险以及在多智能体环境中存在的传染性越狱问题,研究结果展示了传染性越狱的可行性,并探讨了如何设计有效的防御机制。
- 揭示异常:保护图像分类免受对抗性贴纸攻击
我们提出了一种防御机制,利用聚类技术 DBSCAN 来分离异常图像片段,并通过三阶段流程对敌对噪声进行定位和减轻,进而中和其效果。该防御机制在多个模型和数据集上验证,证明其在对抗性贴片攻击中的有效性,显著提高了准确性。
- PuriDefense:随机本地隐式对抗净化来防御黑箱基于查询的攻击
传统的防御机制如对抗训练、梯度掩盖和输入转换要么会对计算成本造成巨大的影响,要么会损害非对抗性输入的测试精度。为了解决这些挑战,我们提出了一种高效的防御机制,PuriDefense,它在较低的推理成本下使用一组轻量级净化模型进行随机的补丁净 - AAAISAME:对模型提取攻击的样本重构
通过基于样本重构的概念,介绍了一种新颖的防御机制 SAME,能够解决深度学习模型在 MLaaS 环境下的模型提取攻击问题,并且相较于现有解决方案具有更强的防御效果。
- RADAP:一种面向人脸识别的稳健自适应防御对抗性贴片
本文提出了 RADAP,它是一种针对封闭集和开放集人脸识别系统中各种对抗补丁的强大而适应性的防御机制。RADAP 采用创新技术,如 FCutout 和 F-patch,利用傅里叶空间采样掩蔽来提高人脸识别模型的遮挡鲁棒性和补丁分割器的性能。 - 基于注意力机制的视觉应用中针对物理对抗攻击的实时策略
本文提出了一种高效的基于注意力机制的防御方法,利用对抗通道注意力快速识别和追踪浅层网络中的恶意对象,并在多帧情景中遮蔽它们的对抗影响。该方法提升了现有超激活技术在现实世界的对抗攻击中的效果,并引入了一个高效的多帧防御框架,通过广泛实验评估了 - 在受信任执行环境中减轻联邦学习中的对抗性攻击
这篇论文研究了联邦学习中的数据隐私保护和防御机制,使用了受信任执行环境和遏制对抗性样本的方法来提高模型的鲁棒性。
- 通用防御底图补丁:使您的文本在光学字符识别中变得不可见
通过修改文本图像的底层绘画而非字符,提出了一种新颖有效的防御机制,称为 “通用防御底层绘画补丁(UDUP)”,能够防御未经授权的 OCR,并且对任何屏幕截图范围或复杂图像背景设置都有效。
- KDDFedDefender:客户端抗攻击的联邦学习
分散化数据源的联邦学习为学习提供隐私保护,但容易受到恶意客户干扰的模型中毒攻击,因此本文提出了一种名为 FedDefender 的新客户端防御机制,通过攻击容忍的本地元更新和攻击容忍的全局知识蒸馏两个组件,实现对联邦学习的模型中毒攻击的抵御 - 现实世界欺诈检测中的对抗学习:挑战与前景
本文探讨了对付欺诈检测系统的对抗攻击与对付其他机器学习应用的对抗攻击不同的原因,并就如何解决这一问题提出了建议。
- 通过数据集随机化中和对抗性攻击
本文通过使用超空间投影来提出了一种新的针对图像分类器的通用防御机制,可以提高深度学习模型对抗攻击的鲁棒性,实验结果显示通过优化攻击和生成对抗攻击测试其在 MNIST 数据集上的成功率可以至少减少 89% 和 78%。
- ICML强化和防御具备马尔可夫链近似的图重构攻击
通过以 GNN 作为马尔可夫链,并借助灵活的链逼近方法,我们首次对图再现攻击进行了全面研究,并提出了两种信息理论引导的机制:一种是通过自适应设计来提取更多的私有信息的基于链的攻击方法;另一种是在训练 GNN 时去除更多的链敏感信息的基于链的 - FedGrad: 通过检查本地终极梯度来减轻联邦学习中后门攻击的影响
提出 FedGrad 作为一种新的反对联邦学习中背门攻击的防御机制,能够对边缘情况的背门攻击进行较好的防御,并且在不降低主任务精度的情况下最高可以准确检测到几乎 100% 的恶意参与者,从而显著降低背门效果,而且相比现有的防御机制,其表现出 - Nik 防御:基于人工智能的比特币自私挖掘防御机制
该研究提出采用学习自动机理论的基于人工智能的防御机制来对抗 Bitcoin 自私挖矿攻击,通过根据区块发现时间分配权重、自适应地评估分支高度差异来修改当前的比特币分叉解决策略,可将利润阈值提高至 40%,并降低自私攻击者的收益。
- 可证明的强化学习后门政策防御
该研究提出了一种基于子空间触发假设的强化学习背门策略的可证明防御机制,该机制通过将观察到的状态投射到一个安全子空间来消毒被污染的策略,从而实现了近似最优性。