当表示对齐时:在表示学习动态中的普适性
本文研究了神经网络所谓的收敛学习现象,使用多种技术对神经网络进行了实验,发现了一些神经网络的未知属性,包括神经网络中某些特征通常会被成功学习,而其他特征则没有被可靠地学习,单元学习低维子空间,而这些子空间是多个网络共有的,但学习的基向量不一致,表示代码表现出局部代码和略微分布式代码的混合特征。
Nov, 2015
本研究通过理论和算法对同一结构但训练自不同初始化的两个深度神经网络学习出的神经元激活子空间匹配进行研究,提出了最大匹配和简单匹配的核心概念,并发现了在子空间匹配方面,从不同初始化训练的网络中学习出的卷积层表示并不像普遍预期的那样相似。
Oct, 2018
通过引入门控深度线性网络框架,研究网络结构对学习动态产生的影响并理解它与任务之间的关系,表明结构化网络中的学习动态可以被概念化为具有向共享表示的神经竞赛,我们的分析为神经网络架构与学习之间的关系提出了一般性假设,并提供了理解更复杂架构设计以及模块化和组合在解决现实问题中起的作用的数学方法。
Jul, 2022
通过研究大规模可视化模型中循环神经网络(RNN)的表征动力学,发现推理过程中表征持续演化,且错分表征表现出较低的L2范数激活模式,并更靠近读出区域的边缘,这种排列方式有助于错分表征随时间进展逐渐进入正确的区域,结果对于理解自然任务中RNN动力学具有普适意义。
Aug, 2023
通过研究具有一个隐藏层的网络的学习动态,我们发现网络的激活函数对于表示几何的影响强于预期:Tanh网络倾向于学习反映目标输出结构的表示,而ReLU网络保留了更多关于原始输入结构的信息。这种差异在广泛的参数化任务中一直存在,我们在这些任务中调节任务输入的几何与任务标签的对齐程度。我们通过分析权重空间中的学习动态,说明了Tanh和ReLU非线性网络之间的差异是由于ReLU的非对称渐近行为导致的,这导致特征神经元专门针对输入空间的不同区域。相比之下,Tanh网络中的特征神经元倾向于继承任务标签结构。因此,当目标输出是低维时,Tanh网络生成的神经表示比采用ReLU非线性的表示更具解耦性。我们的发现揭示了神经网络中输入输出几何、非线性和学习表示之间的相互作用。
Jan, 2024
通过揭示深度神经网络(DNNs)在训练过程中的演变,本文重点关注在过度参数化学习环境下,训练持续进行的情况,探讨了学习表示的演变以及层级之间的相似性和线性分类器探针的相似度等指标,并发现了与相对层级深度、DNN宽度和架构有关的训练动态模式。同时,对Vision Transformer进行了研究,展示了完美拟合阈值在编码器块中表示演变方面的转变。
May, 2024
本研究探讨了神经网络视觉模型是否因与生物视觉共享建筑约束和任务目标而学习与大脑对齐的表征,还是因学习自然图像处理的普遍特征。研究发现,不同架构和任务目标的网络学习使用一组共同的潜在维度来表征自然图像,这表明人工与生物视觉的相似性主要由一组核心的普遍图像表征所主导。
Aug, 2024
本文研究了初始化对深线性神经网络学习动态的影响,填补了关于权重初始化如何影响网络表示演变的知识空白。作者提出了一种新的方法,通过拉姆达平衡初始化精确推导出学习动态的解决方案,揭示了从懒惰到富有学习模式的转变。研究结果加深了对初始化对学习模式影响的理论理解,具有持续学习、逆转学习和迁移学习的广泛应用潜力。
Sep, 2024
本文探讨了神经网络中复杂、结构化和可转移表征的形成机制,提出了经典表征假设(CRH),认为六种对齐关系普遍支配大多数隐藏层的表征形成。研究表明,CRH的破坏会导致表征、权重和神经元梯度之间出现互惠的幂律关系,从而为深度学习中的主要现象提供了统一的理论框架。
Oct, 2024