adversarial input perturbations | BriefGPT

关键词adversarial input perturbations

搜索结果 - 6

输入扰动对稳健准确公平性的双刃剑
深度神经网络对于对抗性输入扰动具有敏感性，为了同时表征预测准确性和个体公平性对于对抗性扰动的易感性，我们引入了一个新的鲁棒性定义，称为鲁棒准确公平性。我们提出了一种名为 RAFair 的对抗性攻击方法，用以暴露在深度神经网络中存在的虚假或有
PDF3 months ago
评估离线自主驾驶分割对抗攻击的鲁棒性：基于数据集的分析
本研究调查了在越野自动驾驶领域中，语义分割模型对于对抗性输入扰动的脆弱性。尽管在一般条件下表现良好，但现有的最先进分类器经常容易受到（甚至是）轻微扰动的影响，最终导致高自信度的不准确预测。我们的研究旨在填补这一空白，通过研究非鲁棒特征对越野
PDF5 months ago
CVPR加强对抗性容错性评估的置信度
该研究提出了一种测试方法以识别弱攻击和防御评估，为了增强透明和信心，将攻击单元测试作为未来强度评估的重要组成部分。
PDF2 years ago
基于梯度的 NLP 模型分析易受操控
本文研究了神经网络自然语言处理模型的可解释性，特别是基于梯度的分析方法。我们发现，这些分析方法的梯度很容易被劫持，具有误导性。结合多项自然语言处理任务的实验结果，本文提出一种基于覆盖层的方法来干扰和欺骗这些梯度。
PDF4 years ago
贝叶斯神经网络的概率安全性
研究了在敌对输入扰动下，贝叶斯神经网络的概率安全性，使用非凸优化松弛技术计算贝叶斯神经网络概率安全性的下界，并且证明方法可用于对具有数百万参数的 BNN 进行概率安全性的认证。
PDF4 years ago
ICML通过扩展抽象训练实现对可编程字符串转换的鲁棒性
本文介绍了一种灵活的编程语言，可以帮助用户指定字符串转换，使模型具有对抗性的鲁棒性。我们的方法将搜索和抽象技术相结合，通过将一组用户定义的字符串转换分解为两个组件来达到鲁棒性。在 AG 和 SST2 数据集上的实验表明，该方法可以使模型具有
PDF4 years ago