稀疏深度神经网络的模式分布和功能
本文指出,关于促进稀疏性的更强大的贝叶斯算法具有类似于长短期记忆(LSTM)网络或先前设计用于序列预测的替代门控反馈网络的结构,从而导致了一种新的稀疏估计系统,当授予训练数据时,可以在其他算法失败的方案中高效地估计最优解,包括在实际方向-到达(DOA)和三维几何恢复问题中。
Jun, 2017
本研究提出一种算法,可以确定生成RadiX-Nets,这些稀疏的深度神经网络拓扑结构相比X-Net拓扑结构更加多样化,同时保留了X-Nets所需的特性,基于长期观察到的稀疏神经网络可以达到与稠密对应物相同的表达能力的功能分析猜想。
Apr, 2019
通过深门控网络作为框架,理论分析和实验验证了几种DGNs变体,阐述了深度神经网络的训练和泛化方面的问题,着重讨论了为什么增加深度能帮助训练到一定程度,而增加深度会伤害训练,以及证明了门控自适应在泛化中的关键作用。
Feb, 2020
本文提出了一种度量深度神经网络在训练过程中因果结构的度量方法,即有效信息(EI),用于评估每个层的因果影响节点和边缘在其下游目标上的度量。通过分解EI以检查每个层的敏感性、退化性和整合信息量,可以在“因果平面”上可视化每个层次的连接方式如何随时间变得更加敏感或退化,以及集成如何在训练期间改变。结果有助于理解深度神经网络的泛化能力,并为使DNN具有更高的泛化性和可解释性提供基础工具。
Oct, 2020
通过引入门控深度线性网络框架,研究网络结构对学习动态产生的影响并理解它与任务之间的关系,表明结构化网络中的学习动态可以被概念化为具有向共享表示的神经竞赛,我们的分析为神经网络架构与学习之间的关系提出了一般性假设,并提供了理解更复杂架构设计以及模块化和组合在解决现实问题中起的作用的数学方法。
Jul, 2022
通过DAG-DNN框架的分解结构,能够将深度神经网络的所有函数分别应用在网络的子结构中,从而实现系统性地结构修剪,进一步得出了基于交错方阵的网络修剪方法。
Jun, 2023
通过研究神经网络所学到的表示是否具有特权和趋同基础,本研究旨在探究个别神经元所表示的特征方向的重要性。结果表明,与线性网络不同,神经表示的任意旋转无法被逆转,证明其不具备完全的旋转不变性。同时,通过比较具有相同参数但具有不同随机初始化的网络的基础,我们发现:(1)即使在WideResNets等宽网络中,神经网络也无法收敛到唯一的基础;(2)当网络的少数前几层被冻结时,基础之间的相关性显著增加。此外,我们对线性模态连通性进行了分析,这是衡量基础相关性的一种方式。我们的研究发现,虽然线性模态连通性随网络宽度的增加而改善,但这种改善并不是基础相关性增加所导致的。
Jul, 2023
我们在深度神经网络的学习动态方面的理解仍然不完整。最近的研究开始揭示了这些网络的数学原理,包括“神经坍塌”现象,在训练的后期,DNN内的线性分类器会收敛到特定的几何结构。然而,几何约束在学习中的作用并不仅限于这个阶段。本文对DNN中的梯度秩进行了全面研究,研究了体系结构选择和数据结构对梯度秩界限的影响。我们的研究不仅有助于理解DNN中的学习动态,而且为深度学习工程师提供了实践指导,以便做出明智的设计决策。
Feb, 2024
通过研究神经网络训练动态,探究权重参数在初始化过程中引入的各种因素之间的复杂相互作用,我们发现梯度下降可以快速将深层神经网络驱动至零训练误差,不论具体的初始化方案如何,只要输出函数的初始尺度超过一定阈值。这个区域被称为theta-lazy区域,突出了初始尺度在神经网络训练行为中的主导影响,同时我们还发现这个theta-lazy区域与神经切线核(NTK)范式有相似之处,但条件宽松。通过严格的分析,我们揭示了初始尺度kappa在神经网络训练动态中的关键作用。
Apr, 2024