- PCLD:面向对抗纯化的点云层间扩散
通过对 3D 点云进行逐层扩散的防御策略,本研究提出了一种新的防御方法,用于评估 3D 点云模型的鲁棒性,并证明该方法在抵御对抗性攻击方面表现出与现有方法相当甚至更好的结果。
- 用 LLM 玩猜谜游戏:通过隐含暗示的间接越狱攻击
通过提供一些关于原始恶意查询的提示,间接绕过 LLM 的防御策略并获得恶意响应的间接越狱攻击方法 Puzzler,通过采用防御姿态通过 LLMs 收集原始恶意查询的线索,相较于基准方案,Puzzler 在闭源 LLMs 上实现了 96.6% - 勤奋的鲍勃通过及时对抗调整反击越狱
我们提出了一种名为 Prompt Adversarial Tuning (PAT) 的方法来训练一个防御控制机制,将其作为用户提示的前缀来实施我们的防御策略,该方法在黑盒和白盒设置中表现有效,在几乎不影响操作效率的情况下,将高级攻击的成功率 - Signed-Prompt: 防止 LLM 集成应用程序中的 Prompt 注入攻击的新方法
大语言模型中快速注入攻击的关键挑战以及引起人工智能领域日益关注。传统的防御策略不够有效,本文提出了一种新颖的解决方案 ——“签名提示”。该方法通过将敏感指令签名并由授权用户使用,使得语言模型可以辨别可信指令来源。本文详细介绍了快速注入攻击模 - 对推荐系统模型抽取攻击的防御
针对推荐系统中模型提取攻击的首个防御策略是基于梯度的排名优化(GRO),通过将非可微的排名列表转化为可微的交换矩阵,该策略最小化受保护目标模型的损失并最大化攻击者代理模型的损失,实验证明其在防御模型提取攻击方面的卓越有效性。
- Sentinel:一种保护去中心化联邦学习的聚合函数
Sentinel 是一种用于对抗分布式联邦学习中的恶意攻击的防御策略,提供了一种基于本地数据的三步聚合协议,包括相似性过滤、引导验证和归一化,以提高对无目标和有目标恶意攻击的防御性能。
- LLM 谎言:病态幻觉不是错误,而是对抗性示例的特征
大型语言模型(LLMs)包括 GPT-3.5、LLaMA 和 PaLM 似乎具有丰富的知识并能够适应多种任务,但我们仍无法完全信任它们的答案,因为 LLMs 容易产生幻觉,即捏造不存在的事实来欺骗用户。本文通过证明无意义的随机标记可以引发 - 保障视觉感知推荐系统:对抗性图像重建和检测框架
本文提出一种基于对比学习的对抗性图像重建和检测框架,用于保护视觉感知推荐系统免受各种本地扰动的对抗攻击,并能够有效地检测对抗性样本。
- 在对抗环境中规划攻击者困境
本文提出了一种规划框架,以生成一种防御策略,旨在针对在保卫者能够在攻击者不知情的情况下运作的环境中工作的攻击者。防御者的目标是将攻击者促使进入困境状态,从而无法实现其目标;同时,防御者被限制在 K 个步骤内实现其目标,其中 K 被计算为一种 - 拜占庭人也可以从历史中学习:联邦学习中心裁剪的失败
本文研究使用 Momentum 和 Centered Clipping 框架改进联邦学习中的安全性,但发现 Centered Clipping 框架存在攻击漏洞,提出新的攻击策略可以规避该框架的防御,并对其产生的影响进行数值分析。
- 三维点云分类中的不可感知迁移攻击与防御
本文研究了从两个新的和具有挑战性的视角提出了一种新的感知威胁互通攻击(ITA)来攻击 3D 点云,提高了其不可感知性和传递性,并且进一步提出了训练更加健壮的黑盒 3D 模型以抵御此类 ITA 攻击的防御策略。
- 对抗性 YOLO: 通过检测对抗性贴片来防御人类检测贴片攻击
本文介绍一种名为 Ad-YOLO 的有效的插件式防御方案,它可以有效地解决面对物理世界中的侵袭攻击的问题,能够直接检测目标对象和敌对补丁的存在。经实验测试,Ad-YOLO 比 YOLOv2 在面对攻击时表现出更好的鲁棒性和稳定性。
- ICLR基于自监督的在线对抗性净化
该论文介绍了一种新的防御策略,称为自监督在线对抗净化(SOAP),它结合了监督学习与自监督表示学习,并使用自监督损失在测试时净化对抗性样本,以提高深度神经网络的鲁棒性。该方法利用自监督信号的标签无关性来抵抗对抗扰动,并在训练复杂度较低的情况 - 针对联邦学习系统的数据污染攻击
本文研究了面向联邦学习系统的有针对性的数据毒化攻击,通过对恶意参与者的异常检测和排除,提出了一种有效的防御策略。
- 海绵示例:神经网络的能量延迟攻击
本文介绍了一种利用对抗攻击对神经网络进行针对能源和决策延迟的攻击,该攻击构造出能够最大化能源消耗和延迟决策的输入,可对成熟的视觉和语言模型进行攻击,并探讨了从平均情况到最坏情况的硬件能源消耗分析的防御策略。
- ICCV动态分治对抗训练用于稳健语义分割
本研究探索了对语义分割数据进行通用对抗训练的方法,提出了动态分治对抗训练(DDC-AT)策略,将像素分为多个分支,以增强对抗攻击的防御效果。实验表明,DDC-AT 在白盒和黑盒攻击下都具有令人满意的性能。
- 使用变分自编码器对图像分类进行对抗性防御
使用变分自编码器的防御策略抵御深度神经网络在图片分类任务中的对抗性攻击。这个防御系统具有灵活性、可学习分解表示以及基于像素块不需要针对不同尺寸的图片进行重新训练等特性,并在中度到严重的攻击情况下,明显胜过 JPEG 压缩及其最优参数,同时仍 - ICLRDefense-GAN: 使用生成模型保护分类器免受对抗攻击
Defense-GAN 使用生成模型来抵御深度神经网络受到的对抗性攻击,并不需要修改分类器结构或者训练过程,可以适用于任何分类模型,并且不需要了解生成对抗性示例的过程。在不同的攻击方法下,实验证明 Defense-GAN 对抗性攻击防御策略 - 安全博弈中对手行为的学习 ——PAC 模型视角
本研究使用 PAC 模型,直接学习对手响应功能,通过实验验证了新的对手建模方法,在提高对手模型准确性时,探讨了实际需要的数据量,提供了最佳防御策略的条件。