- 对大规模语言模型的对抗欺骗攻击效率
使用五种不同的大型语言模型(LLMs)进行情感分类任务时,针对三种不同类型的对抗攻击,该研究分析了攻击的有效性、效率和实用性,发现词级攻击更有效,而字符级攻击则更实用且所需的改动和查询数量较少,因此在开发对抗性防御策略以训练更具鲁棒性的 L - MeanSparse: 通过平均中心的特征稀疏化来增强训练后的鲁棒性
我们提出了一种简单而有效的方法,通过对经过对抗训练的模型进行后处理,来提高卷积神经网络(CNNs)对抗性示例的鲁棒性。我们的技术 MeanSparse 将训练模型的激活函数级联到与平均中心化的特征向量稀疏化的新操作。我们展示了这种减小平均值 - 缩小差距:对健壮和标准泛化的 Rademacher 复杂性
对深度神经网络进行对抗性示例训练通常导致对测试时的对抗数据泛化能力差,本论文通过 Rademacher 复杂度研究了这个问题,提出了上确界对于匹配标准设置中的最优上确界的 DNN 的对抗 Rademacher 复杂度,通过计算对抗函数类的覆 - 解读 CLIP 神经元的二阶影响
我们通过使用文本自动描述单个神经元在 CLIP 中的功能,通过对神经元直接效应(即从神经元通过剩余流到输出的流动)或间接效应(总体贡献)的分析无法捕捉到神经元在 CLIP 中的功能。因此,我们提出了 “二阶镜头”,通过分析从神经元通过后续注 - HOLMES:使用多个检测器检测对抗样本
通过监测深度神经网络(DNNs)的输出(logits),我们提出了 HOLMES(Hierarchically Organized Light-weight Multiple dEtector System),用于检测潜在的对抗性示例,以加 - 针对安全定向 LLM 的改进对抗样本生成
通过借鉴转移式攻击的思想,结合渐变式对抗性提示生成过程,我们改进了自动生成的对抗性示例以攻击白盒大语言模型,取得了显著的性能提升,同时也提出了新的见解和适当的方法组合。
- PureEBM: 通过能量模型中间运行动力学实现的通用毒素净化
数据污染攻击对机器学习模型的完整性构成重大威胁,本研究引入了一种通用数据净化方法,通过应用一个基于能量的模型(EBM)的普适性随机预处理步骤来保护自然训练的分类器免受恶意攻击。
- PureGen: 通用数据净化方法 —— 基于生成模型动态的训练时毒素防御
利用随机变换介绍的普遍数据净化方法,通过迭代 Langevin 动力学算法行为模型(EBMs)、去噪扩散概率模型(DDPMs)或两者的能量波动来净化被污染的数据,最小化对分类器泛化性能的影响,并在 CIFAR-10、Tiny-ImageNe - 通过邻域条件采样增强对抗性可转移性
使用轻量级计算依然能够高度传递的样本攻击方法 (NCS) 可生成高度传递的对抗性示例,并在计算成本上仅需要 50% 的要求,同时可与其他方法无缝集成以进一步提高传递性。
- 贝叶斯误差如何限制概率鲁棒准确性
对于建立在神经网络上的许多关键系统来说,对抗性例子构成了一种安全威胁。尽管确定性鲁棒性通常会导致显著的准确性下降,但已提出概率鲁棒性(即在给定区域内具有相同标签的概率≥1-κ)是实现鲁棒性同时保持准确性的一种有前景的方法。然而,现有的用于概 - CVPR学习动态转化以提高对抗迁移性能
通过学习选择最佳的变换组合以提高对抗传递能力的一种新方法,名为 Learning to Transform (L2T),在实验中展现出优于现有方法的性能,并证实其有效性和实用意义。
- 恶意软件检测中对抗性样本的零阶优化的新形式
机器学习恶意软件检测器对付精心设计的可逃避检测的 Windows 程序的敌对示例存在漏洞。本文介绍了如何将学习恶意软件检测器置于零阶优化框架中,以便融入保持功能性的操作。我们提出和研究了 ZEXE,一种针对 Windows 恶意软件检测的新 - 文本分类器的对抗攻击的约束执行奖励
通过强化学习算法训练的编码器 - 解码器重述模型生成多样化的对抗性示例,在两个文本分类数据集上实验证明该模型的成功率高于原始的重述模型,并且总体上比其他竞争性攻击更有效,同时讨论了关键设计选择如何影响生成的示例以及该方法的优势和弱点。
- 用于对抗鲁棒性的自适应批标准化网络
通过自适应批归一化网络(ABNN)设计一种不基于对抗训练但仍然能够抵御强对抗攻击的防御方法,以提高对抗性鲁棒性并在图像和视频数据集上实现更高的清洁数据性能和显著降低训练时间复杂度。
- 神经网络的认证稳健准确性由于贝叶斯误差有界
通过采用贝叶斯误差进行韧性分析,本文探讨了在考虑数据分布的不确定性的情况下,获得可证实韧性和保持准确性的极限,并建立了基于个别类别和边界分布的可证实韧性准确性的上界。
- 允许或禁止在量化网络之间转移对抗攻击的特性
深度神经网络在量化时不同位数的源网络与目标网络存在转移性,某些攻击类型能增强转移性,通过对网络的量化版本之间的攻击实例的平均转移性可以估计对不同容量和结构的量化目标网络的转移性。
- 关于通过扰动潜在表示进行文本分类的对抗性示例
通过使用分类器的梯度,我们创建了一个衡量文本分类器鲁棒性的框架。
- ReLU 是否具有对抗鲁棒性?
通过实验证明修正线性单元(ReLU)激活函数在生成对抗性样本方面的不足,我们提出了一种改进版本的 ReLU 函数,以提高对抗性样本的鲁棒性,并通过对抗训练进一步增强了我们的自定义模型相比于通用模型的鲁棒性。
- ProFLingo:一种基于指纹技术的大型语言模型版权保护方案
本文提出了一种基于黑盒指纹识别的版权保护方案,称为 ProFLingo,它能够生成可以代表原始模型独特决策边界特征的对抗性样本,从而建立独特的指纹。该方案通过检验这些对抗性样本在嫌疑模型上的有效性来确定是否来源于原始模型,采用非侵入式方法, - 一种使用稳定扩散的防御对抗攻击的新方法
我们的研究论文提出了一种基于动态防御策略和稳定扩散的方法,该方法旨在在不使用对抗性示例的情况下进行 AI 系统的训练,以创建一个更广泛范围攻击下具有内在韧性的系统,从而提供一种更广泛且更强大的针对对抗性攻击的防御。