- 针对受攻击方策略访问有限的强化学习的行为目标攻击
研究考虑攻击强化学习代理,其中对手通过对受害者的状态观察添加敌对修改来控制受害者的行为,提出了一种在黑盒和无盒设置中操纵受害者代理的新方法,无需特定环境启发式,并通过分布匹配问题解决现有的模仿学习算法,实证评估表明该方法攻击性能优于基准方法 - SALAD-Bench: 大型语言模型的分层与综合安全评估基准
大型语言模型(LLMs)的安全性评估是一个重要问题,该研究提出了一个名为 SALAD-Bench 的安全性基准,用于评估 LLMs 的攻击和防御方法,并通过广泛的实验验证 LLMs 对新兴威胁的抵抗力和现代防御策略的有效性。
- 多模态大型语言模型在图像和文本上的安全性
对多模态大型语言模型的安全进行评估、攻击和防御的系统性调查,包括对图像和文本上的安全问题的研究和讨论。
- BackdoorBench: 一个全面的后门学习基准和分析
我们建立了一个名为 BackdoorBench 的综合基准,提供实时攻击和防御算法的集成实现,并通过全面的评估和多个分析工具对其进行深入分析,旨在为后门学习领域的研究提供一个牢固的基础。
- EMNLP通过注入对抗性段落污染检索语料库
在这份研究中,我们提出了一种新的攻击方法,通过扰乱离散标记以最大限度地与提供的一组训练查询相似,从而为密集检索系统生成少量的对抗性段落。当这些对抗性段落插入到大规模的检索语料库中时,我们证明这种攻击在欺骗这些系统在攻击者未见过的查询中进行检 - 多项式时间密码分析提取神经网络模型
我们改进了 Carlini 等人的攻击方法,通过开发数种新技术,我们能够在多项式数量的查询和时间下,以任意高的精度提取基于 ReLU 的 DNN 的所有实数参数。我们在具有 3072 个输入、8 个隐藏层每层 256 个神经元和超过百万个神 - 机器学习模型泄漏研究:对合成训练数据的探索
对于一个预测个人或家庭在接下来两年内搬迁的机器学习模型的攻击进行研究,该攻击假设攻击者可以查询模型以获取预测结果,并且模型的训练数据的边际分布公开可用。攻击还假设攻击者已获得了某些目标个体的非敏感属性的值,攻击的目标是推断出这些目标个体的敏 - 理解开放域聊天机器人中的多轮有害行为
设计了一种名为 oxicbot 的新攻击方式,通过对话序列来触发多轮对话中聊天机器人生成有毒回复,使得聊天机器人模型可以被触发生成有毒回复,进而绕过两种防御方法,需要进一步研究解决动态交互环境下聊天机器人的毒性问题。
- 机器学习需要自己的随机性标准:随机平滑和基于伪随机数生成器的攻击
本文考虑攻击者是否可以只利用制造机器学习模型所依赖的随机性来破坏模型的安全性, 发现攻击者能够利用 Randomised Smoothing,一种用于提高模型抵抗对抗性攻击和量化不确定性的方法,背后基于对高斯噪声采样,来进行欺骗性认证,而且 - ICML联邦学习中安全聚合的样本重新 ATTRIBUTION 攻击(SRATTA)
在跨部门的联邦学习模式中使用 SRATTA 攻击方法能容易地使数据被泄露并对模型安全形成威胁,而为了保证隐私,我们需要采取一些积极的防御措施。
- 隐私保护机制在联邦学习中的应用
本文研究在联邦学习中,使用差分隐私和社区驱动方法来保障本地数据隐私,识别了一个安全漏洞并设计了两种攻击模式,Adversarial Mode 和 Backdoor Mode,实验结果表明这些攻击是有效的。
- 针对轮归约 Simeck32/64 的改进差分神经密码分析
本研究通过构建具有神经网络特点的差分区分器,成功改进了 Simeck32/64 的(9-12)轮的神经区分器的准确度,并在 Simeck32/64 上实现了 15 轮、16 轮和 17 轮实用的密钥恢复攻击,成功率接近 100%。
- 面向未知分布的对抗鲁棒性
该研究探讨了在深度学习领域,对抗性鲁棒性的问题及其解决方法,提出了领域泛化和风险外推方法来应对不同攻击方式,对测试攻击的准确率得到了大幅提升。
- 为何如此有毒?:在开放领域聊天机器人中测量和触发有毒行为
本文展示了公共的聊天机器人模型容易提供有毒反应,并出现了一些非有毒查询可以触发有毒反应。通过实验,展示了一个攻击(ToxicBuddy)的有效性和三种防御机制对其的影响。该研究强调了保障聊天机器人的安全性需要更多的计算机安全和在线安全社区的 - 联邦学习语言模型中的私有文本恢复
本文介绍了一种新颖的攻击方法 FILM,用于联邦学习过程中语言模型的训练,成功恢复单句和多句的私有文本数据,并讨论了三种防御方法。
- MM找到 MNEMON:重现节点嵌入的记忆
本文提出了一种基于模型的、针对节点嵌入矩阵的隐式图结构信息的图恢复攻击方法,展示了攻击者仅通过对原图的节点嵌入矩阵的访问即可恢复边缘的效果和适用性。
- CVPRNICGSlowDown: 评估神经图像字幕生成模型的效率鲁棒性
这篇研究提出了一种名为 NICGSlowDown 的新攻击方法,旨在评估神经图像字幕生成模型的效率鲁棒性,并发现输入的变化会导致 NICG 模型的计算资源消耗增加,对 NICG 模型的效率鲁棒性提出了新的挑战。经过实验证明,该攻击方法可以生 - 使用白盒攻击和黑盒攻击逃避深度伪造图像检测器
本研究发现了一些图像取证分类器的脆弱性,提出了五种攻击案例,在实验中发现通过篡改图像,向合成器的潜在空间添加噪声模式等方式,均能有效地降低分类器的区分真伪的准确率,揭示了某些图像取证分类器的显著弱点。
- 通过减少离散度增强对抗样本的跨任务黑盒可迁移性
本文研究了对神经网络的对抗样本跨任务迁移性的攻击,超越了现有攻击的限制,并针对计算机视觉中的多种任务提出了一种新的攻击方法。
- CVPR通过平移不变攻击规避转移对抗样本的防御
本文提出了一种翻译不变攻击方法,该方法利用一个翻译图像集合上的扰动以生成更易于转移的对抗示例,并表明该方法通常适用于任何梯度攻击方法。作者在 ImageNet 数据集上广泛实验验证了该方法的有效性,并证明该攻击技术的存在不安全性。