- 攻击方式太过低级:对于对抗性可迁移性的攻击方案进行形式化
本文研究在机器学习模型中对抗样本的转移性,提出了 DUMB 攻击模型并设计了测试环境验证实验,证明在数据源、平衡度和模型架构不匹配时,攻击的效果会受到严重影响。
- 图像分类中最新通用对抗扰动的比较评估
本文综述了最近在图像分类任务中的 UAPs 的进展,并将其分类为噪声攻击和生成器攻击,并提供了每个类别中代表性方法的全面概述,同时还评估了不同的损失函数在一致的培训框架内的各种攻击设置的有效性,最后提供了扰动的一些可视化及未来的潜在研究方向 - KDD通过神经网络输运动力学检测对抗样本
文章提出了一种基于神经网络离散动态系统视角的对抗样本检测器,通过比较输入在神经网络各层上所遵循的离散向量场来判断其是否为异常输入,并表明在训练过程中规则化向量场可以使神经网络更加规则,从而提高对干扰样本的检测性能并改善测试准确率。
- 自适应吸引子:一种对抗机器学习恶意合谋攻击的防御策略
本文探讨了机器学习模型中卖家 - 买家设定下的对抗攻击问题,通过对吸引子重写器和自适应吸引子的实验比较,得出存在多个恶意买家勾结的情况下,使用自适应吸引子能更好地防御攻击。
- ACL使用双重增益提高摘要系统的鲁棒性
本文旨在研究文本摘要模型对词级同义替换和噪声的鲁棒性,发现模型鲁棒性不足。为提高模型的鲁棒性,提出用语言模型生成对抗样本并在输入空间内使用这些样本多样化原始数据,同时在隐藏空间内进行流形混合操作以引入更多的编码器编码输出。测试结果表明,该方 - ACL从对抗性武器竞赛到模型为中心的评估:推进自动化统一鲁棒性评估框架
本文提出了一种统一的自动鲁棒性评估框架 RobTest,通过针对模型能力建立鲁棒性评估维度、生成不同维度下的对抗样本,最终实现自动鲁棒性评估。实验结果表明,该框架能有效评估 RoBERTa 模型的鲁棒性。
- 基于扩散的对抗样本生成技术,改善隐蔽性和可控性
该论文提出了一种名为 Diff-PGD 的新框架,用于生成逼真的对抗样本,并通过使用扩散模型引导梯度,确保对抗样本保持靠近原始数据分布同时保持其有效性,证明使用 Diff-PGD 生成的样本具有更好的可转移性和抗净化能力。
- ACL对话生成的白盒多目标对抗攻击
通过提出一种名为 DGSlow 的白盒多目标攻击方法,该方法通过梯度优化来平衡生成精度与长度,并通过适应性搜索机制来逐步制作仅有几个修改的对抗样本,并将其用于四个基准数据集的全面实验,成功率比传统的以准确性为基础的方法更高,同时还展示了强大 - 通过融合 Top-1 分解特征的逻辑输出增强对抗传递性
该研究提出了基于奇异值分解的特征攻击方法,以提高对抗样本的迁移性,并通过实验验证了其有效性。
- CKBP v2: 通识知识库填充的专家注释评估集
本文介绍了 CKBP v2,这是一个新的高质量的常识知识库(CSKB)人口基准,使用专家注释代替众包注释,并添加多样化的对抗样本以使评估集更具代表性,通过与最先进的方法进行比较,本文表示人口普查任务仍然具有挑战性。
- CVPR基于 Token 梯度正则化的可转移的视觉 Transformer 的对抗攻击
本篇论文提出了一种名为 Token Gradient Regularization(TGR)的方法,通过在每个内部块中以 token 方式减少 ViTs 反向传播梯度的方差来生成对抗样本,从而攻击 Vision transformers 和 - 通过人为扰动在线评估内容审核机器学习模型
本文提出了一种包含人为写作的扰动,用于评估社交媒体上毒性发言检测模型的效果,并测试了该测试集在深度学习 (BERT 和 RoBERTa) 和黑盒 API(如 Perspective API)上的表现,结果表明带有真实人为扰动的对抗攻击仍然有 - ACL实时视觉反馈用于引导基准创建:人 - 指标协同的工作流程
该篇论文提出了一种基于引导群众工作者的新型自然语言处理(NLP)基准创建范例 VAIDA,以减少创建样本中的人为偏差,并通过 NASA TLX 用户研究及专业评估证实,减少了创建样本的人力、时间投入的同时,增加了样本的整体性与质量,并降低了 - 公平性增加对抗性漏洞性
本篇论文研究了深度学习模型在公平性和鲁棒性交叉应用中面临的挑战,并探讨了取得公平性如何降低模型对抗采样的鲁棒性的现象。作者提出了一种简单而有效的解决方案来平衡公平性和鲁棒性之间的权衡关系。
- 采用深度度量学习改进对抗鲁棒性,提高对敏感性与不变性攻击的防御能力
利用度量学习将对抗正则化框架建模为最优传输问题,可以提高模型对不变扰动和敏感性攻击的防御,从而在对抗样本防御方面具有普遍适用性。
- 真正的同义词替换攻击有多远?
本研究探讨了同义词替换攻击(SSAs)的实际可行性,并揭示当前 SSA 中存在的未解决问题,包括四种常用的替换方法产生大量无效替换单词,语法及语义约束不足以检测到无效的样本,该研究为今后构建更好的 SSAs 提供了重要的契机。
- ECCV通过不对称 InfoNCE 的对抗性对比学习
通过引入不对称信息最大化损失函数(asymmetric InfoNCE objective),从而区分对待对抗样本,提高对抗鲁棒性。该方法在多种微调模型下均能取得优异的效果。
- 文本分类中识别、检测和区分超出分布样本和对抗样本
对比分析了文本分类模型中常见的三种输入样本:分布内、分布外和对抗样本,并提出一种基于模型隐藏表示和输出概率的简单方法,有效地区分了这三种输入样本。
- ICCVPointBA: 针对三维点云的后门攻击
本文提出了两种针对点云的后门攻击方法:有毒标签后门攻击和干净标签后门攻击,通过操纵三维数据特征来优化加入新任务,实验表明有毒标签后门攻击成功率高达 95% 以上,而干净标签后门攻击较为隐蔽,成功率约为 50% 左右,这些攻击方法为提高三维深 - CVPRLG-GAN: 面向基于点云的深度网络的标签引导对抗网络进行灵活的有针对性攻击
本文提出了一种新颖的标签引导的对抗网络(LG-GAN)用于实时灵活的目标点云攻击,该网络能够在单一前向传递中学习如何变形点云以使识别网络误认为是特定标签,支持在飞行中的灵活目标攻击,并同时保证攻击性能和效率的同时提高。