- 利用检索增强生成模型的漏洞
该研究论文探讨了检索增强的生成模型(RAG)如何整合外部知识库,提高其在事实核查和信息搜索等应用中的性能;同时指出了敌对方如何通过向检索数据库注入虚假内容来更改模型行为,进而对 RAG 系统进行成功的攻击,为此呼吁在设计和部署 RAG 系统 - 激进或隐蔽,或者两者兼具:联邦学习中网络剪枝辅助的混合拜占庭节点
通过提取与神经网络拓扑特定的一定侧面信息,我们提出了一种混合稀疏拜占庭攻击,该攻击由两部分组成:一部分表现出稀疏特性,只攻击具有较高敏感性的神经网络位置,另一部分更加隐匿且随着时间积累,理想上每部分针对不同类型的防御机制,二者共同形成一种强 - 如何请求决定一切:针对越狱攻击的简单黑盒方法
通过使用以 ChatGPT 为目标的简单黑盒方法,本研究有效地生成越过伦理规定的提示,突破了现有方法的复杂性和计算成本的限制,该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式,该研究结果表明,创建有效的越狱提示比以前认为的更简单, - 利用后门操纵轨迹预测
自动驾驶车辆需要预测周围车辆的轨迹,以在不确定和复杂的交通情况下进行安全操纵。本文重点研究了轨迹预测中被忽视的安全威胁 - 后门,并调查了影响轨迹预测的四个触发器。研究结果显示,这些触发器与期望输出相关联时,能够影响先进的轨迹预测模型的输出 - Maatphor:自动化变体分析用于立即注入攻击
我们提出了一个工具来帮助防御者执行已知提示注入攻击的自动变种分析,旨在自动生成给定提示的变种,并仅通过模型的输出自动确定变种的有效性。该工具还可以辅助生成破解和提示注入攻击的数据集,从而克服该领域数据稀缺的问题。
- 嵌入式神经网络模型提取的故障注入和安全错误攻击
模型提取是一种关键的安全威胁,它通过算法和基于实现的方法进行攻击,我们关注嵌入式深度神经网络模型及标准错误攻击策略以进行模型提取攻击,成功地恢复了至少 90% 最显著位,并仅使用 8% 的训练数据集训练出了与受害模型近乎相同精度的替代模型。
- ACL可学习的文本后门攻击:基于词替换的组合锁攻击
本文研究表明神经自然语言处理模型容易受到后门攻击的威胁,而现有文本后门攻击方法容易被检测和阻拦,因此我们提出一种使用可学习的词汇替换的不可见后门攻击方法,结果表明该方法在攻击成功率接近 100% 的情况下高度隐蔽,对于 NLP 模型的安全构 - ICML强化学习中的政策教学:基于环境污染攻击
研究发现存在一种针对强化学习的安全威胁,攻击者通过毒化学习环境的奖励和转移概率来强制执行特定的策略,提出了一种攻击代价度量的最优化框架,并在离线和在线两种情况下验证了攻击者可以通过一个优雅的攻击在很宽松的条件下让受害者代理执行任意策略,这表 - 漏洞攻击对讲话人验证
本文通过设计基于聚类的攻击方案,展示了在训练数据中注入隐藏的后门以感染演讲者验证模型的可能性,并证明了现有的后门攻击无法直接用于演讲者验证。该方法不仅为设计新型攻击提供了新的视角,也为提高验证方法的鲁棒性提供了一个坚实的基础。
- ICML环境毒化的策略教学:针对强化学习的训练时对抗性攻击
本研究探讨了加强学习中的一种安全威胁,其中攻击者污染学习环境以强制代理执行攻击者选择的目标策略,提出了一个寻找不同攻击成本度量的 “最优隐蔽攻击” 的优化框架,并在两种环境(离线和在线)中实例化了攻击,揭示加强学习算法面临的重大安全威胁。
- 批量强化学习和控制中的策略污染
本研究针对批量强化学习和控制中的安全威胁进行了探讨,该攻击旨在污染所学策略。案例针对强化学习中的表格确定等价学习器和控制中的线性二次调节器进行了实例化,并表明了两个实例均可实现全局最优解。
- 一点即可:绕过分布式学习的防御
分布式学习中存在安全威胁,参与者可以通过小且巧妙的更改避开所有现有的防御措施,使得网络模型性能下降 50%,从而导致 MNIST 和 CIFAR10 模型行为被篡改。
- 在印刷 / 扫描和异构图像源存在下的面部融合检测
本文提出了基于深度神经网络的人脸变形检测新方法,包括生成模拟打印 - 扫描图像的数据增强策略和预先在大型人脸识别数据集上进行训练,在来自异构图像源的具有挑战性的数据集上达到了最先进的准确性,解决了在电子身份文件中人脸变形问题带来的安全威胁。
- ICML评估深度神经网络上对抗样本的威胁
研究深度神经网络面临的潜在安全威胁 —— 对抗性样本,这些输入看起来很正常,但会导致深度神经网络错误分类;发现通过正常的图像获取进程实现的小扰动可以消除对抗性样本造成的影响,从而抵消了潜在威胁。同时,已经广泛使用的多次裁剪平均处理和正常预处