重新思考基于梯度的属性方法在模型可解释性中的作用
本篇论文研究了在线性可分数据上应用于深度线性网络的梯度流和梯度下降的风险收敛和渐进权重矩阵对齐——一种隐式正则化方法,详细说明了在套用于严格递减损失函数时(梯度下降的递减步长也是如此):(i)风险趋近于0;(ii)标准化的第i个权重矩阵渐进等于其秩-1逼近;(iii)这些秩-1矩阵在层之间对齐,即 |vi+1^Tv_i| -> 1。特别地,在逻辑损失(二元交叉熵)的情况下,还可以说更多的结论:网络激发的线性函数——其权重矩阵的乘积——趋向于与最大边际解同方向。这种性质在之前的工作中已被证明,但仅基于对梯度下降的假设,这里的对齐现象可以证明这些假设。
Oct, 2018
研究深度人工神经网络中的反向传播学习算法与大脑神经元突触可塑性规律的类比,介绍了不依赖于对称前向和后向突触权重的算法,提出通过加强权重符号一致性的反馈对准法的修改,可以实现与反向传播法相当的性能。这些研究结果表明,促进前向和反馈权重对准的机制对于深度网络的学习是至关重要的。
Dec, 2018
本文提出了一个关于如何解释神经网络使用梯度下降算法泛化能力较强的假设Coherent Gradients,并支持该假设的启发式论证和简单实验证明。同时,该分析为防止过拟合提出了一种自然而然的梯度下降修改方法。
Feb, 2020
本文通过考虑神经元的宽度,利用神经切向核学习理论研究了神经网络在生物学中的可能模型,并提出了一种基于输入活动相关性的反向传播算法,该方法在低数据环境中表现出与反向传播相当的性能。
Jun, 2021
本文提出新的思路,通过特征归因归一化改进局部梯度,提出了L2范数和余弦距离的规范化不变的损失函数作为正则化项,在CIFAR-10和ImageNet-100上实验表明该方法大大提高了解释的鲁棒性。
Nov, 2022
本文研究反馈对准算法的梯度对准机制(gradient alignment),使用数学推理和模拟证明了梯度对准是该算法固定点的稳定性准则,但高度的梯度对准却不一定会导致良好的算法性能。
Jun, 2023
机器学习的经典智慧认为泛化误差可以从偏差和方差两个方面进行分解,并且这两个术语之间存在一种权衡关系。然而,在本文中,我们展示了对于由深度学习为基础的分类模型集合,偏差和方差在样本级别上是一致的,其中对于正确分类的样本点,平方偏差近似等于方差。我们通过实证证据在多种深度学习模型和数据集上验证了这一现象。此外,我们从两个理论角度研究了这一现象:校准和神经坍缩。我们首先理论上证明在模型被很好地校准的假设下,我们可以观察到偏差-方差一致性。其次,从神经坍缩理论提供的视角出发,我们展示了偏差和方差之间的近似相关性。
Oct, 2023
通过学习解决权重对齐问题的新框架Deep-Align,该研究提出了深度网络的排列对称性和权重排列两个基本对称性,并在多个网络架构和学习设置上进行了实验,结果显示Deep-Align能够产生与当前优化算法相比更好或相等的对齐,并可用作其他方法的初始化,以实现更好的解决方案和显著加速收敛速度。
Oct, 2023
本文探讨了过参数化神经网络的泛化问题,传统方法通常基于插值观点,未能与更复杂的任务相适应。研究表明,在训练样本数超过某一优化阈值后,模型更倾向于向简单解收敛,而非简单插值,这一现象有助于改善模型的泛化能力,并显著降低测试损失。
Oct, 2024