本文提出了一种解决 NLP 系统鲁棒性问题的方法,通过形式化验证系统对先前已定义的对抗攻击的稳健性,使用 基于区间边界传播法的模型验证方法模拟离散文本扰动,改进对数似然训练目标训练模型,该方法能够有效地验证模型,并保证模型在最坏情况下的鲁棒性。
Sep, 2019
本文提出了一种新的基于符号区间传播和变量分裂的分支定界求解器 DPNeurifyFV,该方法采用新的启发式算法来选择区间变量,以改善变量相关性问题,在结合其他改进措施的情况下,可以显著提高深度学习神经网络验证的效率,并在空中碰撞避免网络 ACAS Xu 上实现了运行时改进。
Dec, 2022
通过分析,我们展示了如何利用一种简单的边界技术(interval bound propagation,IBP)来训练大型保正可证神经网络,从而打败了验证准确率最高的现有技术,在 MNIST,CIFAR-10 和 SVHN 数据集上达到了最先进的结果。
Oct, 2018
利用区间算法和符号区间分析代替 SMT solver,可以更高效地实现对 DNN 的安全性质进行正式验证,ReluVal 系统相比现有最先进的 solver-based 系统 Reluplex,平均可以提升 200 倍验证效率。
Apr, 2018
将对抗性攻击表示为可训练函数,使用神经网络模拟理想攻击过程,并降低对抗训练为攻击网络和防御网络之间的数学博弈,同时在此设置中获得了对抗性训练的收敛速率。
Jul, 2023
本文讨论了区间分析(或区间边界传播,IBP)用于验证和训练可靠机器学习的深度神经网络的可行性问题。研究发现,对于任何深度神经网络分类只有三个点,存在 IBP 无法证明的有效规范。此外,在单隐藏层神经网络的限制情况下,存在一组点,无论采用多少隐藏层,都无法通过区间分析来证明其分类鲁棒性。
Dec, 2021
本文介绍了一种用于生成自然语言对抗性样本的几何灵感攻击方法,该攻击通过迭代逼近深度神经网络(DNNs)的决策边界生成对抗性样本,并实验证明该攻击方法可以快速欺骗自然语言模型,并表明对抗训练可以提高模型对我们的攻击方法的鲁棒性。
Oct, 2020
本文提出了一种基于黑盒技术的新型对抗样本攻击方法,针对原始图像最小化 l0 距离。实验证明,该攻击方法优于或与现有技术相当。同时,我们可引入部件约束来提高分类器对稀疏和不可察觉的对抗性操纵的鲁棒性。
本研究就 Interval Bound Propagation 的训练过程进行了理论分析,证明了当神经网络使用该方法进行训练时,具有一定的鲁棒性保证,并可以在有足够小的扰动半径和大网络宽度的情况下,使用梯度下降法线性收敛到零的鲁棒训练误差。
Mar, 2022
通过将标准客观函数优化、利用注意力图和平滑决策表面三种方法紧密整合,我们在本文中提出了一种新的简单算法 TAIG (Transferable Attack based on Integrated Gradients),它可以为黑盒攻击寻找高度可转移的敌对样本,两个版本的 TAIG 都计算了沿着直线或随机分段线性路径的积分梯度,均具有很强的可转移性,并且可以与以前的方法无缝协同工作。实验结果表明,TAIG 优于现有的最先进方法 。
May, 2022