- QUEEN: 模型抽取的查询反学习
QUEEN 是一种针对模型提取攻击的反击方法,通过敏感度测量和输出扰动来限制潜在威胁的出现,并且在单个敏感的查询批次上应用查询去学习,以减少攻击的学习准确性。
- 极限条件下的语言生成
使用基本规范并且不需要进一步的假设,我们的主要研究结果是针对每个可计数的候选语言列表,都存在一个能够在极限情况下生成的代理模型,与用于识别未知语言的语言学习模型产生截然不同的结果,这表明识别语言和从中生成语言是根本不同的问题。
- 使用引导扩散生成强力毒药和后门
使用指导扩散生成的基础样本可用于在神经网络中制造更强效的毒素和后门攻击,并可增加任何下游污染或后门攻击的效力。
- 从(生产)语言模型中可扩展地提取训练数据
本文研究了可提取性记忆:对一个机器学习模型进行查询,对其训练数据进行高效提取的训练数据,而不需要事先了解训练数据集。我们表明,对于开源语言模型如 Pythia 或 GPT-Neo,半开放模型如 LLaMA 或 Falcon,以及闭源模型如 - GNNBleed:利用真实访问 GNN 模型揭示图中的私有边缘
该论文研究了对抗者拥有黑盒图神经网络模型访问权限的情景下的边缘隐私,通过分析与节点相连的节点的输出来推断节点之间的联系,揭示了即使在具有访问控制机制的系统中,一个适应性对手仍然可以破译节点之间的私密连接,从而揭示潜在敏感关系并损害图的机密性 - 对具备严格区域发现功能的视频对象分割的对抗攻击
本论文研究视频对象分割中的敌对例子对模型的影响,通过对易混淆区域的攻击,通过生成更强敌对干扰从而降低现有视频对象分割模型的性能。
- 抗腐败的利普希茨上下文搜索
学习具有损坏二进制信号的 Lipschitz 函数的问题,采用了一种自然而强大的技术来检查算法的鲁棒性,设计了能够实现小累积损失的算法。
- 神经代码搜索的后门
本文研究了神经代码搜索模型的安全性,在已有的在线代码库中,攻击者可以注入有漏洞的代码片段并使其在搜索结果中排名较高,进而影响到软件系统的正常运行并带来潜在的财务和安全风险。作者提出了一种名为 BADCODE 的攻击方式,并对其进行了测试和评 - 双重攻击:一种针对文本生成模型的模型劫持攻击
通过新的模型劫持攻击,可以成功地入侵文本生成模型而不危及其效用。
- 针对测试时攻击与分布偏移的可靠学习
本文讨论机器学习算法在环境未完全准确的情况下的应用,尤其是面对对抗攻击和分布变化的情况下,引入新的鲁棒性可靠性保证,并提供优秀的学习方案,分析了可靠性区域,同时分别分析了近似对数凹分布和平滑概率分布下的线性分类器和光滑边界分类器的可靠性区域 - 利用公平性来增强敏感属性的重建
本篇论文提出了一种通用的重构校正方法,可以在满足用户定义的约束条件(如公平性信息)的同时最小化敌手的猜测的更改,并解决了黑盒访问目标模型的情况下反应了培训数据敏感属性的问题。
- 基于信息对手的训练数据重构
研究如何通过反向工程的方法利用少量的反向查询训练数据重建整个机器学习模型,尤其是针对神经网络等更一般的模型,通过实际攻击和差分隐私的方法来防御这种攻击,并探讨其对标准机器学习管道的影响。
- 强化学习中的奖励污染:对未知环境中的未知学习者的攻击
研究黑盒奖励污染攻击,设计了一种名为 U2 的新型黑盒攻击来操纵奖励以误导不知道先前知识的 RL 代理,进而学习一种恶意策略,可在最具挑战性的黑盒设置中实现接近最先进白盒攻击的性能。
- 来自攻击的属性推断
本研究讨论了对抗者攻击在训练数据中恶意注入攻击数据(即污染数据),从而提高模型信息泄漏,并成功实现了基于属性推断的攻击方法。在两个数据集上的实验中,攻击准确率在 90% 以上,污染率在 9-10% 之间。
- 为了娱乐和利益对语言模型进行特洛伊植入
本研究旨在研究恶意预训练语言模型对 NLP 系统带来的安全威胁,通过 TROJAN-LM 攻击来实现 NLP 系统的误操作,并提供分析性证明及可能的对策。
- 将未标记数据纳入分布鲁棒学习中
本研究介绍了一种新的分布鲁棒学习方法,该方法通过加入无标签数据以限制敌手从指定分布中选择数据,可以有效地进行分类,并提出了一个分布鲁棒的版本,可应用于主动学习。在 14 个真实数据集上的结果表明,该算法往往在传统方法无法提供良好结果的情况下 - DeepRadioID: 基于深度学习的无线电指纹算法实时抗干扰优化
本文提出 DeepRadioID,一个系统,其无需重新训练深度学习模型即可优化基于深度学习的无线电指纹识别算法的准确性,实验结果显示其在三种情况下分别增加了 35%,50%和 58%的指纹识别准确性,并在 100 个设备数据集上实现了 27 - 风险厌恶稳健对抗强化学习
本文提出了一种风险规避的强化学习算法,通过引入风险规避主角和风险趋避对手的方式,使用价值函数方差来建模风险,避免极端不良事件的发生,该算法在自动驾驶控制器上的实验中证明具有较高的鲁棒性。
- 基于 GPS/INS 的路上位置跟踪系统的安全性
本文研究了 INS 辅助 GPS 跟踪与导航技术在道路交通系统中的安全保障问题,并通过开发和评估算法展示了对磁力计进行主动欺骗的可行性,同时实验结果表明攻击者可以达到离真实目的地 30 公里甚至更远的位置而不被检测到。
- 提高对手实力绕过功能压缩
Feature Squeezing 是一种新提出的防御方法,可通过将对应于原始空间中许多不同特征向量的样本合并为单个样本,从而减少对手可用的搜索空间。虽然已经证明特征压缩防御可以在联合检测框架中组合,以实现对最先进的攻击的高检测率,但我们证