- 基于目标引导的生成式提示注入攻击大型语言模型
通过重新定义攻击目标并设计简单而有效的目标导向生成式提示注入策略(G2PIA),我们最大化纯文本和对抗文本之间的 KL 散度,从而在无查询条件下以较低的计算成本实现最佳攻击效果。在七个大型语言模型和四个数据集上的实验结果表明我们的攻击方法的 - 深度学习模型中的安全与隐私挑战
深度学习模型在多个领域取得了巨大的成功,但研究发现这些模型存在各种攻击,会危及模型的安全性和数据隐私,特别是模型抽取攻击、模型反转攻击和对抗攻击。这篇论文研究了这些攻击以及它们对深度学习模型的影响。
- 基于四分位数估计均值梯度聚合的联邦图像分类基准
Estimated Mean Aggregation (EMA) 是一种创新解决方案,既能够增强模型安全性,又能够处理数据异质性,从而提高去中心化深度学习在联邦学习中的效率、安全性和多样性。
- 分散学习对抗攻击的鲁棒性
本文旨在评估分片学习在抵御对抗攻击方面的鲁棒性,尤其是在非信任服务器只能访问模型的中间层时进行评估。通过提出一种定制的攻击方法 SPADV,证明了分片学习在面对对抗攻击时存在令人惊讶的脆弱性。
- ICML重构式神经元修剪用于后门防御
本文提出了一种新的防御方法 ——Reconstructive Neuron Pruning(RNP),它通过一种非对称重构学习过程,针对神经网络中的 backdoor 节点进行暴露和修剪,并取得了先进的防御效果。
- 保护量子机器学习模型安全的框架 QuMoS
该研究提出了一种名为 QuMoS 的框架,该框架通过在多个云提供商之间分发 QML 模型而不是应用加密算法来保护模型安全,并且使用强化学习算法自动优化在分布式环境下的模型设计,从而在提供高安全性的同时实现高精度。
- 一种简单且高效的对抗性词汇替换攻击方法
本研究提出了一种简单而高效的方法,将对文本分类模型的人为攻击所需的平均查询次数减少了 3-30 倍,并且能够保持攻击效果。
- ICMLOmniLytics:基于区块链的去中心化机器学习安全数据市场
OmniLytics 是一个基于区块链的安全数据交易市场,可用于机器学习应用程序。它实现了数据安全、模型安全和模型拥有者分离,同时保证了分布式模型的训练和公平付款。
- ICLR利用内部分布触发器中毒深度强化学习代理
本文提出了一种新的数据毒化攻击,并将其应用于深度强化学习代理程序。我们的攻击聚焦于所谓的分布触发器,这些触发器是该模型将在其中接受训练和部署的数据分布的本地触发器。我们概述了一种简单的过程,用于嵌入这些及其他触发器在多任务深度强化学习代理中 - 使用鲁棒统计方法防御后门攻击的 SPECTRE 技术
提出一个使用鲁棒协方差估计来放大数据污染的光谱特征的新型防御算法,从而完全消除后门,即使在先前的方法无法检测到污染样例的情况下,也能提供一个净模型。
- 关于基于后门的深度神经网络数字水印的鲁棒性
本论文研究了深度神经网络的数字水印技术并提出了黑盒和白盒的攻击方法,证明了该水印方案的不安全性,并指出需要一些其他技术来保护免受攻击。
- 卷积神经网络模型中的后门嵌入:通过不可见扰动
本文介绍了一种特定类型的数据投毒攻击,即后门注入攻击,讨论了攻击者注入后门到深度学习模型中的方法,并提出了两种在不削弱受害者模型有效性的情况下,难以察觉但能实现模型毒化的后门生成方法。我们进行了广泛的实验评估,并证明即使在最弱的攻击者模型下 - MLCapsule: 机器学习服务的离线安全部署
本文提出了 MLCapsule,它是一种机器学习离线部署的安全方法,确保数据隐私和模型安全。同时,MLCapsule 与离线应用程序兼容,并提供了对高级攻击 (如模型窃取、逆向工程和成员推断) 的防护。