例子困惑度
通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本,不仅能提高情感分析和文本蕴涵模型的错误率,还能在20名人类注释者中得到92.3%的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试,但未能产生改进,说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。
Apr, 2018
通过对深度神经网络进行解释并将其应用于VQA等人类交互任务的研究已经取得了重大进展;然而,本研究发现目前的解释并不能提高模型的可预测性,而将模型视为黑盒的人类参与方法却能够提高可预测性。
Oct, 2018
本研究提出一种基于噪声敏感性分析的测试优先技术,可以有效选择深度神经网络模型中噪声敏感性比较高的示例。通过在四个图像数据集和两个深度神经网络模型上的实验证明,该方法能够成功地挑选出噪声敏感度较高的示例。
Jan, 2019
本研究旨在通过减少神经元的不确定性,提高 DNNs 在整个图像空间的可解释性。通过提出一个新的度量方式、利用对抗样本发现学习后的神经元特征具有歧义性,以及通过一种有着一致性损失的对抗训练算法来提高对抗样本子集上的神经元的一致性
Jan, 2019
本文研究在深度学习中“好的解释很难变化”的原则,指出在梯度平均时往往偏向记忆化和拼凑的解决方案而忽视了不变性,在此基础上提出了一种基于逻辑AND的简单算法并在多个真实任务上进行测试。最后使用一组合成数据集和常见正则化方法进行比较。
Sep, 2020
本研究采用基于个例角度的视角,引入了计算预测输入的困难程度的度量-(有效的)预测深度,发现了一些有意为之而意外的、简单的关系,进一步将困难例子分为三个可解释的组,并展示了这种理解如何提高了预测准确率,揭示了文献中一些分开探讨的现象的连贯视图。
Jun, 2021
该研究论文探究了在深度分类模型学习中忽略分类正确但离决策边界较远的数据样本对于表示学习、能量优化和边距增长等问题的影响,并提出了奖励分类正确的这些样本的方法以解决这些问题。该研究通过在图像分类、图分类和机器翻译等任务中进行实证验证,证明了该方法可以显著提高性能并解决不平衡分类、OOD检测和对抗攻击等复杂场景下的问题。
Oct, 2021