关键词adversarial perturbations
搜索结果 - 221
- 相似度度量对基于文本可解释 AI 的本地替代模型的准确稳定性估计的影响
最近的研究探讨了机器学习模型输入的局部替代方法对对抗扰动的脆弱性,其中在复杂模型下,解释被操纵,但原始输入的意义和结构保持相似。虽然已证明许多方法存在弱点,但其中的原因仍未得到深入探究。对可解释人工智能(XAI)上的对抗攻击的核心概念是用于 - 对抗鲁棒分类器的一致收敛性
在对数据分类问题的不同类型的对抗扰动的影响方面,引入对抗性能力作为一个重要参数,以精确性和稳健性之间的权衡关系。本研究考虑对对抗性扰动分类问题的一般框架,在大数据或整体数据的情况下进行研究。在这样的情况下,我们证明了当对抗性强度趋近于零时, - 特征映射协调:增强对抗鲁棒性的图卷积方法
深度神经网络对对抗性扰动的脆弱性引起了重大的安全关切,本研究提出了一种创新的插拔模块称为基于特征图的重构图卷积(FMR-GC),通过在通道维度上谐调特征图以重构图,并采用图卷积捕获邻域信息,有效校准污染特征,与先进的对抗训练方法相结合,显著 - 评估视觉状态空间模型的鲁棒性
综合评估了视觉状态空间模型(VSSMs)在各种扰动场景下的稳健性,并与传统的架构如转换器和卷积神经网络进行了比较,发现其在处理复杂视觉破坏方面的优势和局限性,为该领域的未来研究和改进提供了宝贵的见解。
- 可解释的图神经网络挑战
图神经网络 (GNN) 的预测通常缺乏可解释性,因为其复杂的计算行为和图的抽象特性,为解决这一问题,出现了许多 GNN 解释方法,它们的目标是解释模型的预测结果,从而在 GNN 模型在决策关键应用中部署时获得信任,但是,大多数 GNN 解释 - 针对易样本的扰动改善目标对抗可迁移性
在黑盒攻击中,敌对扰动的可迁移性为攻击提供了一种有效的捷径。本文实验和理论上证明相同数据集训练的神经网络,在每个类别的高样本密度区域(High-Sample-Density-Regions,HSDR)具有更一致的性能。在目标场景中,朝目标类 - ACLAI 生成文本检测器对抗扰动的鲁棒性研究
本文研究了现有的 AI 生成文本检测方法的鲁棒性,并介绍了一种新的检测器 ——Siamese Calibrated Reconstruction Network(SCRN)。SCRN 采用重构网络来添加和去除文本中的噪声,从而提取出对局部扰 - 调查和揭示卷积神经网络对对抗扰动的特征级漏洞
通过对深度学习模型的不同层进行敌对性扰动攻击验证,研究表明浅层的通道组合对模型的干扰较大,在不同攻击类型中具有共享的易受攻击通道组合,而不同攻击对隐藏表示的影响存在差异且与卷积核大小呈正相关,以此为基础为未来应用开发高效的应对性防御机制奠定 - ACL揭示 NLG 评估器的致命弱点:由大型语言模型驱动的统一对抗框架
通过引入黑盒对抗性评估框架 AdvEval,利用强大的语言模型作为数据生成器和金标评估器,自动优化对抗数据并产生强烈的人工评估与受害评估之间的不一致性,实现了对自然语言生成系统进行鲁棒性评估的研究。在 12 个受害评估器和 11 个自然语言 - 通过数据本地化对稀疏对抗扰动进行认证鲁棒性
通过对局部化数据分布的理解,提出了一种基于几何形态的简单分类器 Box-NN,并在 MNIST 和 Fashion-MNIST 数据集上取得了对于稀疏攻击的认证稳健性方面的最新研究成果。
- 在对抗性攻击下实现不确定性校准的认证
神经分类器对扰动敏感,证书方法提供对其预测的扰动不敏感性的可证明保证,而模型的置信度在安全关键应用中尤为重要。我们证明了攻击可以严重影响置信度,并提出了对置信度的最坏情况下的证书校准作为对抗性扰动下的置信度的界限。最后,我们提出了新的校准攻 - 通过音频风格转换评估自动语音识别系统的鲁棒性
在自动语音识别系统广泛应用的背景下,我们提出了一种基于用户自定义风格转换的攻击方法,结合风格转换和对抗攻击的顺序来实现对 ASR 系统的攻击,实验结果表明我们的方法能够满足用户个性化风格的需求,并在攻击中达到了 82% 的成功率,并且由于我 - 跨输入认证培训:通用扰动
我们提出了一种新的方法 CITRUS,用于训练网络以对抗 UAP 攻击者,通过广泛的评估表明,我们的方法在标准准确性方面表现出色(高达 10.3%),并在实际应用中实现了最佳认证 UAP 准确性指标的性能。
- 因果感知启示的信任图像质量评估的表示学习
通过因果感知启发的表示学习建立一个可信赖的图像质量评估 (CPRL) 模型,同时提出了一种用于 IQA 模型的得分反射攻击方法。实验结果表明,提出的 CPRL 方法优于许多最先进的对抗防御方法,并提供明确的模型解释。
- ACL通过自去噪平滑提高大型语言模型的稳健性
大型语言模型 (LLMs) 的漏洞性导致对抗性扰动攻击,而随着模型规模的增加和有限的访问权限,提高模型的鲁棒性变得很困难。我们提出了一种称为自修复平滑的方法,通过利用 LLMs 的多任务性质,首先去噪噪声输入,然后基于这些去噪版本进行预测, - 频率驱动的对抗样本的一种新视角
通过对频域内对抗扰动的详细频率分析,我们的研究表明低频带的高频部分中存在显著的对抗扰动,并基于此提出了一种基于不同频率带组合的黑盒对抗攻击算法,可显著提高攻击效率。实验结果显示平均攻击成功率达到 99%,超过使用单一频率段的攻击。此外,我们 - LRR: 基于语言驱动的可重采样连续表示抵抗对抗追踪攻击
通过使用感兴趣物体的语义文本指导,建立空间 - 时间连续表示,该方法能够在清晰和对抗数据上实现高准确性,有效抵御不同的 SOTA 对抗跟踪攻击。
- 认证的 PEFTSmoothing:具有随机平滑的参数高效微调
通过使用 Parameter-Efficient Fine-Tuning(PEFT)方法,PEFTSmoothing 方法探索了一种使基础模型适应学习带有高斯噪声的数据的替代方式,证明了其在白盒和黑盒设置下的有效性和效率,可以为 CIFAR - 元不变性防御:对未知对抗性攻击具有普适健壮性
通过 Meta Invariance Defense (MID) 方法,利用深度神经网络对抗已知和未知的对抗性攻击,实现高级图像分类的鲁棒性和低级图像恢复的抵御能力。
- 扩散模型中针对样式模仿的无感知保护
最近扩展模型对图像生成的真实性产生了深远的影响,但这引发了版权侵权的担忧。为了解决这个问题,本研究开发了一种视觉改进的保护方法,既保留了保护能力,又提高了受保护图像的质量。