- 一个基于词显著性的修改式对抗攻击文本分类模型的方法
本研究提出了一种新颖的针对文本分类模型的对抗攻击方法,即修改的基于词显著性的对抗攻击(MWSAA)。该技术利用词显著性的概念,有针对性地扰乱输入文本,旨在误导分类模型,同时保持语义连贯性。通过改进传统的对抗攻击方法,MWSAA 在逃避分类系 - AAAI针对确定性条件图像生成模型的攻击:多样化和可控生成
基于预训练的确定性条件图像生成模型的网络结构或参数不变,我们通过添加微小扰动攻击输入条件,提出了一种简单高效的插件投影梯度下降(PGD)方法来生成多样且可控的图像,从而为低层视觉任务应用对抗攻击打开了新的可能性。
- IOI:一种对无参考图像和视频质量测评方法的隐形一遍攻击
本论文介绍一种针对无参考图像和视频质量度量的隐形一次迭代对抗性攻击方法,通过客观和主观测试,与八种先前方法进行比较,我们方法在各种被攻击的度量架构中表现出卓越的视觉质量,并同时保持可比较的攻击成功率和速度。
- 通过插值平滑提高对人脸识别的抗 JPEG 攻击性能
我们提出了一种新的对抗性人脸识别攻击方法,旨在提高对 JPEG 压缩的对抗性示例的抵抗力。通过对生成的对抗性人脸示例进行插值,我们平滑了对抗扰动,从而有效地减轻了 JPEG 压缩中通常消除的高频信号,实验结果证明了我们提出的方法在改善对 J - LLMs 在实践中可以自我防御破解:一篇展望性论文
Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large langua - 在一分钟内对语言模型进行快速对抗攻击
我们介绍了一种新型的快速、基于束搜索的对抗攻击(BEAST)方法,它采用可解释的参数,使攻击者能够在攻击速度、成功率和对抗提示的可读性之间进行平衡。BEAST 的计算效率使我们能够在语言模型的越狱、产生幻觉和隐私攻击方面进行研究,并通过人工 - Noise-BERT:噪音对齐预训练的统一扰动鲁棒框架用于噪音槽位填充任务
提出了一种噪声对齐预训练的统一扰动鲁棒框架 Noise-BERT,用于解决对话系统中输入干扰对槽填充任务的挑战,通过引入对槽蒙版预测和句子噪声判别两个噪声对齐预训练任务,以提高语言模型对准确槽信息和噪声分布的抓取能力,并通过对比学习损失和敌 - FoolSDEdit:将您的编辑巧妙地引导至目标属性感知分布
通过引入对抗噪声来执行有针对性的属性生成对 SDEdit 的有效攻击,同时利用属性感知型目标函数和优化对输入笔触绘画添加的对抗噪声。
- 通过上下文扰动和大型语言模型分析新闻报道中的情感极性削弱
通过替换、插入和删除等三种扰动方法以及基于上下文的掩码语言模型,在保持核心语义的同时,最大程度地提高目标新闻方面的所需情感分数,并通过波束搜索算法降低情感极性,实现对情感操纵的类别纠正,从而提供更客观的新闻报道并抑制媒体情感语言偏见。
- HQA-Attack: 面向文本黑盒硬标签高质量对抗攻击
在黑盒硬标签文本对抗攻击中,提出了一种名为 HQA-Attack 的简单而有效的框架,可以在有限的查询预算下生成高质量的文本对抗样本,具有高语义相似性和低扰动率。
- AdvGPS:多智能体感知攻击的对抗性全球定位系统
通过引入 AdvGPS,一种能生成对该系统内个体代理隐藏且具有对抗性的 GPS 信号的方法,本研究在 OPV2V 数据集上的广泛实验表明,这些攻击显著削弱了最先进方法的性能,突显了跨不同基于点云的 3D 检测系统的惊人转移性,从而强调了需要 - 使用局部自适应对抗色彩攻击保护艺术品免受神经风格迁移的影响
使用本文提出的局部自适应对抗色彩攻击(LAACA)方法,通过攻击神经风格迁移技术(NST),可以对图像进行不可察觉的扰动,从而保护视觉艺术品的原创性。
- ICML在存在敌对参与者的情况下,基于数据驱动的子抽样
通过对使用深度学习模型进行自动调制识别和子采样的自动调制识别系统进行对抗攻击的分析,揭示了子采样本身对对抗攻击具有有效的威慑作用,并找到了在对分类器和子采样器都预计会进行对抗攻击时最高效的子采样策略。
- 基于 Transformer 的光学字符识别对抗攻击的脆弱性分析
基于 Transformer 的 OCR 模型的韧性评估表明,非定向攻击对其高度脆弱,而定向攻击相对较弱;在基准手写数据集上,非定向攻击几乎无法察觉,造成字符错误率超过 1;而具有类似扰动大小的定向攻击可以以大约 25%的成功率攻击单个标记 - 深度学习相对姿态估计在太空交会中的鲁棒性对抗攻击检测
基于解释性概念,我们提出了一种新的用于深度神经网络相对姿态估计的对抗攻击检测方法,并在轨交会场景中采用了创新的相对姿态估计技术,实现了从千里之外了解目标物体的相对位置和旋转。模拟实验结果表明,所提出的对抗攻击检测器具有 99.21% 的检测 - 约束自适应攻击:对表格数据中的对抗样本进行真实评估和深度神经网络的强化训练
针对深度表格模型的健壮性评估和对抗攻击的研究,提出 CAA 对约束表格深度学习模型进行攻击,构建深度表格模型的健壮性评估基准,为提高深度表格模型在各种对抗攻击场景下的健壮性提供安全实践建议。
- Amoeba: 通过对抗 强化学习绕过机器学习支持的网络审查
我们设计了一种实用的对抗性攻击策略,使用一种基于强化学习算法的序列生成方法,以欺骗依赖机器学习的流分类器,绕过网络审查。我们的实验证明,这种方法可以生成对抗性流量,对多种机器学习算法具有高达 94% 的攻击成功率,并且这种对抗性流量在不同的 - 超越难样本:循环自增强的鲁棒有效的语法错误修正
本文研究了语法纠错方法在序列到序列范式中容易受到对抗攻击的问题,并提出了一种简单而非常有效的 Cycle Self-Augmenting (CSA) 方法来增强模型的鲁棒性,该方法通过在后期训练过程中利用语法纠错模型自身的数据以及引入循环训 - ICCV结构不变性转换:提高对抗迁移性能
给定深度神经网络(DNN)对抗性示例的严重性脆弱性,迫切需要一种有效的对抗性攻击来识别 DNN 在安全敏感应用中的缺陷。本文提出了一种基于输入变换的攻击方法,称为 Structure Invariant Attack(SIA),通过对每个图 - 模型吸附攻击:针对 LLMs 的提取攻击
Model Leeching 是一种新颖的提取攻击,针对大型语言模型(LLMs),能够从目标 LLM 中提取特定任务知识到一个减少参数的模型。我们通过从 ChatGPT-3.5-Turbo 提取任务能力来证明我们攻击的有效性,精确匹配相似度