关键词adversarial input perturbations
搜索结果 - 6
- 输入扰动对稳健准确公平性的双刃剑
深度神经网络对于对抗性输入扰动具有敏感性,为了同时表征预测准确性和个体公平性对于对抗性扰动的易感性,我们引入了一个新的鲁棒性定义,称为鲁棒准确公平性。我们提出了一种名为 RAFair 的对抗性攻击方法,用以暴露在深度神经网络中存在的虚假或有 - 评估离线自主驾驶分割对抗攻击的鲁棒性:基于数据集的分析
本研究调查了在越野自动驾驶领域中,语义分割模型对于对抗性输入扰动的脆弱性。尽管在一般条件下表现良好,但现有的最先进分类器经常容易受到(甚至是)轻微扰动的影响,最终导致高自信度的不准确预测。我们的研究旨在填补这一空白,通过研究非鲁棒特征对越野 - CVPR加强对抗性容错性评估的置信度
该研究提出了一种测试方法以识别弱攻击和防御评估,为了增强透明和信心,将攻击单元测试作为未来强度评估的重要组成部分。
- 基于梯度的 NLP 模型分析易受操控
本文研究了神经网络自然语言处理模型的可解释性,特别是基于梯度的分析方法。我们发现,这些分析方法的梯度很容易被劫持,具有误导性。结合多项自然语言处理任务的实验结果,本文提出一种基于覆盖层的方法来干扰和欺骗这些梯度。
- 贝叶斯神经网络的概率安全性
研究了在敌对输入扰动下,贝叶斯神经网络的概率安全性,使用非凸优化松弛技术计算贝叶斯神经网络概率安全性的下界,并且证明方法可用于对具有数百万参数的 BNN 进行概率安全性的认证。
- ICML通过扩展抽象训练实现对可编程字符串转换的鲁棒性
本文介绍了一种灵活的编程语言,可以帮助用户指定字符串转换,使模型具有对抗性的鲁棒性。我们的方法将搜索和抽象技术相结合,通过将一组用户定义的字符串转换分解为两个组件来达到鲁棒性。在 AG 和 SST2 数据集上的实验表明,该方法可以使模型具有