- 量子模仿游戏:量子机器学习模型的逆向工程
量子机器学习(QML)将量子计算范式与机器学习模型相结合,为解决复杂问题提供了重要机遇。然而,在量子计算的噪声中间尺度(NISQ)时代中,随着众多第三方供应商的扩张,QML 模型的安全性尤为重要,特别是抵御逆向工程攻击,该攻击可能会揭示模型 - Genshin: 大规模语言模型下的自然语言处理通用护盾
利用大型语言模型进行文本恢复的领域化防御方法 Genshin 在情感分析和垃圾邮件检测任务中表现出巨大的潜力,并揭示了当前中位模型的致命缺陷以及大型语言模型在文本恢复能力方面的令人兴奋的结果,同时也暴露了潜在的几乎无损的语义攻击方法。
- 预训练编码器中蒸馏在缓解后门中的有效性
本研究探索了在 SSL 中针对恶意编码器的一种叫作蒸馏的防御方法,蒸馏最初用于监督学习,其目的是从给定模型(即教师网络)中提取知识并传递给另一个模型(即学生网络),现在我们使用它来从被恶意植入的预训练编码器中提取良性知识并传递给一个新的编码 - 传播通用扰动攻击大型语言模型防护栏
大语言模型容易受到自动越狱攻击的威胁,目前的防御措施还不够有效,需要进一步改进。
- SALAD-Bench: 大型语言模型的分层与综合安全评估基准
大型语言模型(LLMs)的安全性评估是一个重要问题,该研究提出了一个名为 SALAD-Bench 的安全性基准,用于评估 LLMs 的攻击和防御方法,并通过广泛的实验验证 LLMs 对新兴威胁的抵抗力和现代防御策略的有效性。
- 多模态大型语言模型在图像和文本上的安全性
对多模态大型语言模型的安全进行评估、攻击和防御的系统性调查,包括对图像和文本上的安全问题的研究和讨论。
- BackdoorBench: 一个全面的后门学习基准和分析
我们建立了一个名为 BackdoorBench 的综合基准,提供实时攻击和防御算法的集成实现,并通过全面的评估和多个分析工具对其进行深入分析,旨在为后门学习领域的研究提供一个牢固的基础。
- 识别和减轻 LLM 集成应用程序中的漏洞
使用大型语言模型(LLMs)作为 LLM 集成应用程序的服务后端的情况下,我们发现了潜在的攻击面和漏洞,并开发了一种轻量级、抗威胁的防御方法,以最大程度减少威胁并保证应用程序的完整性、来源识别、攻击可检测性和实用性保留。
- Purify++: 用先进扩散模型和随机性控制改进扩散净化
对扩散净化方法进行了系统性探索,提出了一种新的扩散净化算法 Purify++,是目前对多种对抗攻击具有最先进防御效果的方法。
- 通过随机化潜在表示欺骗文本欺骗者
通过随机化输入的潜在表示,我们提出了一个名为 AdvFooler 的轻量级、适应各种攻击方法的防御机制,主要目标是困惑生成对抗样本的过程,从而达到误导对手的效果,并在两个基准数据集上证明近乎最先进的防御能力。
- 理解随机特征防御对基于查询的对抗攻击的鲁棒性
通过在中间层的模型中添加随机噪声,我们提出了一种简单轻量级的防御方法,可以有效增强模型对黑盒攻击的鲁棒性,并且对准确率影响较小。
- 抵御预训练语言模型作为小样本学习器的后门攻击
该研究重点探讨了预训练语言模型(PLMs)作为少样本学习器的安全风险,并提出了一种轻量、可插拔且有效的防御方案 MDP,利用掩码灵敏度的差异比较样本的表示,从而鉴别出有显著变化的被污染样本。经实验证明,MDP 在基准数据集和典型攻击上具有较 - 一份包含恶意内容的用于 LLMs 的中文 Prompt 攻击数据集
我们介绍了一份针对大型语言模型的汉语 Prompt 攻击数据集(CPAD),我们的测试结果显示,我们的 Prompt 对语言模型具有显著的危害,攻击成功率约为 70%。我们将发布 CPAD 以鼓励对 Prompt 攻击和防御的进一步研究。
- 通过强鲁棒对齐的 LLM 防御对齐破坏攻击
最近,大型语言模型(LLMs)取得了明显的进展,并在各个领域得到广泛应用。然而,人们越来越担心 LLMs 可能被滥用以生成有害或恶意内容。本研究介绍了一种抵御潜在破坏对齐的攻击的强韧对齐语言模型(RA-LLM),它可以直接在现有的对齐语言模 - BaDExpert:提取后门功能以准确检测后门输入
我们提出了一种针对深度神经网络 (DNNs) 的后期开发防御新方法,用于对抗恶意背后进攻,该方法通过一种新颖的反向工程方法,可以直接从给定的感染模型中提取出背后功能,并将其重建成仅能识别背后输入的模型。我们称之为背后专家模型。我们的防御方法 - XGBoost 对称防御抵御对抗扰动攻击
对于树状集成分类器和梯度提升决策树(GBDT)是否能够利用对称性来抵御对抗扰动攻击进行了研究,并首次证明了 GBDT 对称性的缺失。通过使用特征反演和水平翻转对称性,我们在零知识对手和完全知识对手的威胁模型下对九个数据集进行了 GBDT 对 - 重新思考敌对政策:多智能体 RL 中的广义攻击公式与可证明防御
本文研究在强化学习的多智能体环境中,攻击者通过对受害者智能体进行对抗性的过程来实施攻击,并提出了一种更一般化的攻击模型,通过攻击预算来实现对智能体的控制,可产生能够利用受害者智能体的隐蔽性对抗策略,同时提供了首个提供收敛证明的保护方案,以对 - 针对监视的物理对抗攻击:一项调查
本文回顾了最近在物理对抗攻击方面的尝试和发现,并提出了一种框架来分析物理对抗攻击,并在该框架下对四个关键监控任务:检测,识别,跟踪和动作识别进行了全面的调查。此外,我们还回顾并分析了防御物理对抗攻击的策略和评估防御优势的方法。这篇论文为在监 - ICML防御性机器学习:用对抗性混淆防御架构侧信道
该论文研究使用 Adversarial Machine Learning 方法来防御利用机器学习进行信号分析的侧信道攻击,提出了一种名为 Defensive ML 的工作流程,其中包括设计、实现、训练和部署不同环境下的 Defender 来 - 针对时间序列预测的攻击
本论文提出了一种新的面向时间序列预测模型的 DA-TAA 攻击方式,通过对模型预测的振幅和方向进行精确打击,增强了攻击的有效性,在实验中对比了有无目标的攻击方式,结果呈现出更高的统计意义,且难以用统计方法检测,这提出了新的挑战和考虑,需要更