深度神经网络学习符号交互的动态研究
通过对深度线性神经网络的学习动态进行系统分析,我们发现这些网络表现出类似于非线性神经网络的非线性学习现象,包括长时间的平原,然后快速转换到更低误差的解决方案,以及从贪婪的无监督预训练初始条件下的更快收敛等。同时,我们发现在权重的某些特殊初始条件下,非监督预训练可以找到这些初始条件,同时表现出深度独立的学习时间,而随机高斯初始化则做不到。
Dec, 2013
本研究利用玻璃系统在统计物理学上所开发的方法对深度神经网络(DNN)的训练动态进行了数值分析,在地址复杂度的损失面貌和网络结构等方面取得了一些独到的发现。
Mar, 2018
研究深度神经网络的学习动态,主要关注于二元分类问题。我们证明了网络学习的各种性质,并且在非线性架构下,分类误差也呈现出sigmoid形状,证实了经验观察。我们指出了梯度饱和现象和特征频率对模型收敛速度的影响,并探讨了交叉熵和hinge损失对生成对抗网络训练的差异。最后,我们提出了梯度饥饿现象并进行了研究。
Sep, 2018
本文研究了深度神经网络的特征表示瓶颈,从输入变量在 DNN 中编码的交互复杂性的角度进行探讨,发现 DNN 更可能编码过于简单和过于复杂的交互,并且通常无法学习中等复杂度的交互。该现象被称为特征表示瓶颈,本文从理论上证明了其根本原因,并提出了一种损失函数来促进或惩罚特定复杂度的交互的学习,并分析了不同复杂度交互的表示能力。
Nov, 2021
本论文通过重新定义相互作用的定义,提出了基于信仰度和简洁性的相互作用说明的两种类型(AND和OR相互作用),并设计了技术来提高说明的简洁性,同时不影响它们的信仰度。因此,可以用一组符号概念来准确、简洁地解释DNN的推理逻辑。
Apr, 2023
通过对参数的演化,我们全面分析了深度神经网络的学习动态,发现存在三个阶段:接近恒定的重建损失、下降和上升。我们还通过经验实证建立了数据模型,并对单层神经网络证明了阶段的存在。我们的工作为迁移学习提供了新的最佳实践:通过实验证明预训练的分类器在性能达到最优之前应该停止。
Dec, 2023
该研究探讨了深度神经网络(DNN)学习交互的动态。研究发现DNN学习交互的过程分为两个阶段,并验证了高阶交互相较于低阶交互有较弱的泛化能力,从而解释了DNN的泛化能力在训练过程中的变化。
May, 2024
通过揭示深度神经网络(DNNs)在训练过程中的演变,本文重点关注在过度参数化学习环境下,训练持续进行的情况,探讨了学习表示的演变以及层级之间的相似性和线性分类器探针的相似度等指标,并发现了与相对层级深度、DNN宽度和架构有关的训练动态模式。同时,对Vision Transformer进行了研究,展示了完美拟合阈值在编码器块中表示演变方面的转变。
May, 2024
本研究解决了深度神经网络(DNN)逐层提取新知识及遗忘噪声特征的过程,填补了对知识定义的不一致性和层间互动的理解空白。通过首次提取中间层编码的互动,量化并跟踪每一层在前向传播中的新兴和遗忘的互动,揭示了DNN学习行为、泛化能力的变化及特征表示的不稳定性。
Sep, 2024