defense mechanism | BriefGPT

关键词defense mechanism

搜索结果 - 48

MM调制分类中针对对抗性攻击的混合训练时和运行时防御
本文研究了一种基于对抗训练和运行时机制的防御技术，用于保护基于机器学习的无线电信号（调制）分类免受对抗攻击，并在白盒环境和真实数据集上证明其优于现有技术。
PDF18 days ago
在防御系统中的提示注入攻击
通过三层防御机制，本研究调查了对大型语言模型的黑盒攻击方法，分析了这些攻击所带来的挑战和重要性，评估了现有攻击和防御方法的有效性和适用性，并特别关注了黑盒攻击的检测算法，用于识别语言模型中的危险漏洞和获取敏感信息，提出了一种对大型语言模型进
PDFa month ago
MirrorCheck：视觉语言模型的高效对抗性防御
通过利用 Text-to-Image 模型根据 Vision-Language Models 生成的标题产生图像，并在特征空间中计算输入图像和生成图像的嵌入相似性以识别对抗样本，我们提出了一个新颖而简单的方法来检测 Vision-Langu
PDFa month ago
PuFace: 面向人脸识别模型的抵御面部遮挡攻击
PuFace 是一种图像净化系统，利用神经网络的泛化能力通过将带有面部覆盖的图像推向自然（不带覆盖的）图像的流形，减小覆盖的影响，并通过特别放大的覆盖图像进行训练，成功地防御了两种先进的面部覆盖攻击，将攻击成功率从 69.84％降低到 7.
PDF2 months ago
针对无人机目标检测的模型无关防御对抗性补丁攻击
这篇论文提出了一种针对无人机物体检测中的敌对补丁攻击的新型模型无关防御机制，将对抗性补丁防御问题形式化为遮挡消除任务，通过中性化感兴趣对象上的对抗性补丁来改善无人机物体检测的可靠性。
PDF2 months ago
EmInspector：通过嵌入式检查应对联邦自监督学习中的后门攻击
通过检查本地模型的嵌入空间，本文提出了嵌入检查器（EmInspector），可有效地防范联邦自我监督学习（FSSL）中的后门攻击。
PDF2 months ago
使用信息瓶颈保护您的 LLMs
信息瓶颈保护器 (IBProtector) 是一种立足于信息瓶颈原理的防御机制，通过压缩和扰动提示信息，以保留目标大语言模型回应预期答案所需的关键信息，从而有效防止越狱攻击，而不过度影响响应质量或推理速度。
PDF3 months ago
学会伪装：通过多智能体攻击者 - 伪装者游戏避免 LLM 的拒绝回应
通过多智能体进攻 - 伪装博弈方法弱化大模型的防御机制，使其能够安全回应攻击者并隐藏防御意图。
PDF4 months ago
WWW强大的联邦学习抵抗客户端训练数据分布推理攻击
通过提出 InferGuard，一个新颖的拜占庭鲁棒聚合规则，我们的防御机制在保护客户端训练数据分布推断攻击方面表现出高度的有效性，甚至对于强适应性攻击也具有很强的防御能力，并在各种实际的联邦学习场景中显著优于基准方法。
PDF5 months ago
分布式神经网络中熵模型的弹性
通过实验证明，熵攻击可以增加传输开销高达 95%，提出一个新的防御机制，可以将受攻击输入的传输开销减少约 9%，只有约 2% 的准确度损失，并提出该防御机制可以与对抗训练等方法结合使用以进一步提高鲁棒性。
PDF5 months ago
通过反翻译来抵御 LLMs 的越狱攻击
通过后向翻译提出了一种新的防御方法，用于保护大型语言模型免受越狱攻击，该方法明显优于其他方法，并对良性输入提示的生成质量几乎没有影响。
PDF5 months ago
Agent Smith: 一张图片能以指数速度越狱一百万多模态 LLM 智能体
本文研究了多模式大型语言模型的安全问题，其中包括对抗图像和提示的风险以及在多智能体环境中存在的传染性越狱问题，研究结果展示了传染性越狱的可行性，并探讨了如何设计有效的防御机制。
PDF5 months ago
揭示异常：保护图像分类免受对抗性贴纸攻击
我们提出了一种防御机制，利用聚类技术 DBSCAN 来分离异常图像片段，并通过三阶段流程对敌对噪声进行定位和减轻，进而中和其效果。该防御机制在多个模型和数据集上验证，证明其在对抗性贴片攻击中的有效性，显著提高了准确性。
PDF6 months ago
PuriDefense：随机本地隐式对抗净化来防御黑箱基于查询的攻击
传统的防御机制如对抗训练、梯度掩盖和输入转换要么会对计算成本造成巨大的影响，要么会损害非对抗性输入的测试精度。为了解决这些挑战，我们提出了一种高效的防御机制，PuriDefense，它在较低的推理成本下使用一组轻量级净化模型进行随机的补丁净
PDF6 months ago
AAAISAME：对模型提取攻击的样本重构
通过基于样本重构的概念，介绍了一种新颖的防御机制 SAME，能够解决深度学习模型在 MLaaS 环境下的模型提取攻击问题，并且相较于现有解决方案具有更强的防御效果。
PDF7 months ago
RADAP：一种面向人脸识别的稳健自适应防御对抗性贴片
本文提出了 RADAP，它是一种针对封闭集和开放集人脸识别系统中各种对抗补丁的强大而适应性的防御机制。RADAP 采用创新技术，如 FCutout 和 F-patch，利用傅里叶空间采样掩蔽来提高人脸识别模型的遮挡鲁棒性和补丁分割器的性能。
PDF8 months ago
基于注意力机制的视觉应用中针对物理对抗攻击的实时策略
本文提出了一种高效的基于注意力机制的防御方法，利用对抗通道注意力快速识别和追踪浅层网络中的恶意对象，并在多帧情景中遮蔽它们的对抗影响。该方法提升了现有超激活技术在现实世界的对抗攻击中的效果，并引入了一个高效的多帧防御框架，通过广泛实验评估了
PDF8 months ago
在受信任执行环境中减轻联邦学习中的对抗性攻击
这篇论文研究了联邦学习中的数据隐私保护和防御机制，使用了受信任执行环境和遏制对抗性样本的方法来提高模型的鲁棒性。
PDF10 months ago
通用防御底图补丁：使您的文本在光学字符识别中变得不可见
通过修改文本图像的底层绘画而非字符，提出了一种新颖有效的防御机制，称为 “通用防御底层绘画补丁（UDUP）”，能够防御未经授权的 OCR，并且对任何屏幕截图范围或复杂图像背景设置都有效。
PDFa year ago
KDDFedDefender：客户端抗攻击的联邦学习
分散化数据源的联邦学习为学习提供隐私保护，但容易受到恶意客户干扰的模型中毒攻击，因此本文提出了一种名为 FedDefender 的新客户端防御机制，通过攻击容忍的本地元更新和攻击容忍的全局知识蒸馏两个组件，实现对联邦学习的模型中毒攻击的抵御
PDFa year ago