从无到有的生成一致性:测量梯度走向演变
本文提出了一个关于如何解释神经网络使用梯度下降算法泛化能力较强的假设Coherent Gradients,并支持该假设的启发式论证和简单实验证明。同时,该分析为防止过拟合提出了一种自然而然的梯度下降修改方法。
Feb, 2020
本文通过对 ResNet,Inception 和 VGG 等模型的实验验证了相干梯度假设,并提出了具有可扩展性的抑制弱梯度方向的方法,这是首次令当代的监督学习提供令人信服的概括能力证据。
Mar, 2020
该研究分析了模型 input-gradients 在解释性方面的问题,提出了将标准 softmax-based 分类器的 logits 重新解释为未归一化的数据密度,证明了 input-gradients 可以被视为隐含于判别模型中的类条件密度模型的梯度,并提出了通过 score-matching 来实现对隐含密度模型与数据分布的对齐的算法。研究表明,对齐隐含密度模型和数据分布可以提高梯度的结构性和解释性。
Jun, 2020
本研究介绍了一个多模式图像配准任务,并使用训练有素的神经网络来实现自动去噪,通过在相似输入示例的标签上进行的噪声平均效应来解释这一现象,并提出了相似度度量的定义和估计方法以进行新型的神经网络统计分析。
Feb, 2021
通过几何分析深度神经网络的 memorization 结构及相关特征,发现较深层的 memorization 更为显著,可以通过恢复层权重预防,同时与模型几何结构和 generalization 性能有关。
May, 2021
本研究采用基于个例角度的视角,引入了计算预测输入的困难程度的度量-(有效的)预测深度,发现了一些有意为之而意外的、简单的关系,进一步将困难例子分为三个可解释的组,并展示了这种理解如何提高了预测准确率,揭示了文献中一些分开探讨的现象的连贯视图。
Jun, 2021
本文介绍了一种利用Gradient Normed (GraNd)和Error L2-Norm (EL2N)这两个简单的得分标准来识别深度学习中最重要的数据训练样本,并进行数据修剪以提高模型效果的方法,同时研究了数据分布对模型损失面的影响及模型中比较稳定的数据表示子空间等训练动态。
Jul, 2021
通过信息论分析深度学习及神经网络,研究在训练过程中神经网络获取的信息,提出了限制权值中标签噪声信息的学习算法,并提出了样本信息度量概念,探究了神经网络在非典型、模棱两可或属于代表性较弱群体的情况下的行为,导出了非平凡的泛化表现界限,并通过知识蒸馏研究,证明了数据和标签复杂度在泛化中的重要作用。该论文深入研究了神经网络的泛化机制,有益于更深层次地理解此领域的相关知识。
Jun, 2023
通过探索协同训练的不同维度及其对抗同质化,我们的多样化协同训练在Pascal和Cityscapes数据集上大幅优于现有方法,通过仅使用92、183和366张标记图像,在Pascal数据集上取得了mIoU分别为76.2%、77.7%和80.2%的最佳结果,超过之前的最佳结果超过5%。
Aug, 2023
我们展示了在两种未被充分探索的情况下,两点之间的余弦相似度的梯度趋近于零:(1)如果一个点的幅度很大,或者(2)如果这两个点位于潜在空间的两端。令人意想不到的是,我们证明,优化点之间的余弦相似度会导致它们的幅度增加。因此,(1)在实践中是不可避免的。然后,我们观察到这些推导非常通用,适用于深度学习架构和许多标准的自监督学习(SSL)损失函数。这引导我们提出切割初始化(cut-initialization):一种对网络初始化进行简单更改的方法,有助于所有研究的自监督学习方法更快地收敛。
Jun, 2024