数据集学习的二元性与紧急性临界状态

May, 2024

数据集学习的二元性与紧急性临界状态

Dataset-learning duality and emergent criticality

Ekaterina Kukleva, Vitaly Vanchurin

TL;DR在人工神经网络中，非可训练变量的激活动力学与可训练变量的学习动力学强烈耦合。研究表明通过两种映射的组合建立了非可训练边界变量的子空间（例如数据集）与可训练变量的切向子空间（即学习）之间的对偶映射，可以研究临界性的出现以及可训练变量波动的幂律分布的特性。

Abstract

In artificial neural networks, the activation dynamics of non-trainable variables is strongly coupled to the learning dynamics of trainabl

artificial neural networks activation dynamics learning dynamics dataset-learning duality emergence of criticality

发现论文，激发创造

前馈神经网络中的活动 - 权重对偶：泛化的几何决定因素

通过发现前馈神经网络中某一层神经元的活动变化与连接到下一层神经元的权重变化之间的完全对偶性，我们提出了一个统一的框架来研究如何控制两个几何因子（loss 地形的尖锐度和双重权重值的标准差，其缩放与解的权重范数成比例）来影响一般化的性能，控制分类器的通用性。

Mar, 2022

深度神经网络的学习动态

研究深度神经网络的学习动态，主要关注于二元分类问题。我们证明了网络学习的各种性质，并且在非线性架构下，分类误差也呈现出 sigmoid 形状，证实了经验观察。我们指出了梯度饱和现象和特征频率对模型收敛速度的影响，并探讨了交叉熵和 hinge 损失对生成对抗网络训练的差异。最后，我们提出了梯度饥饿现象并进行了研究。

Sep, 2018

单相对比赫布学习的两个故事

通过将梯度表示为活动差异的方法进行生物合理性学习算法的搜索，提出了名为 “双向传播” 的完全本地学习算法，弥补了与反向传播的性能差距，无需分离的学习阶段或无穷小的盯人，在稳定性方面仍然与对称盯人无关。

Feb, 2024

深度神经网络的扩展临界区

利用长尾随机矩阵与非平衡统计力学理论，提出了 DNN 的新型平均场理论，并发现重尾权重使得 DNN 出现了一个拓展的临界区，体现了丰富的跨层传播动力学，进而赋予 DNN 突出的计算优势，这为设计高效神经网络结构提供了理论指导。

Mar, 2022

深度神经网络中的临界性与均匀性

本文研究了沿着混乱边缘初始化的深度前馈网络，发现其具有指数级的培训能力。同时探讨了 tanh 激活函数的饱和效果，发现这个效果会影响到混乱边界的训练效率，并提出了最大熵的相空间平衡特性。研究表明，在混乱边缘初始化是实现最优训练能力的必要条件，但不足以满足这个目标。

Apr, 2023

神经网络早期学习动力学的出乎意料的简单性

本文证明，对于一类良好行为的输入分布，一个双层全连接神经网络的早期学习动态可以通过在输入上训练简单的线性模型来模仿。关键在于通过约束初始时的神经切向核（NTK）和数据核的仿射变换之间的谱范数差异来赋值。我们还表明，这种令人惊讶的简单性可以在更多层和具有卷积结构的网络中持续存在，验证了这一点。

Jun, 2020

通过提取隐藏神经元激活边界来进行知识蒸馏

该论文提出了一种通过蒸馏隐藏神经元形成的激活边界进行知识转移的方法，并设计了逼近激活转移损失的分段可微损失，实验证明该方法在各个方面的知识转移方面优于当前的最先进技术。

Nov, 2018

学习网络的权重动态

使用局部稳定性分析的数学框架，我们研究了前馈神经网络学习动力学的深层理解，推导了三层神经网络在学习回归任务时的切线算子方程，结果适用于任意节点数和任意激活函数的选择。我们通过数值方法应用这些结果于网络学习回归任务中，调查了稳定性指标与最终训练损失之间的关系。虽然具体结果会因初始条件和激活函数的不同而有所变化，我们证明了通过监测训练过程中的有限时间 Lyapunov 指数或协变 Lyapunov 向量，可以预测最终的训练损失。

Apr, 2024

理解非线性在对比学习训练动态中的作用

本文研究了具有同质化激活的一层和两层非线性网络的对比学习在训练动态中的非线性作用，发现非线性的存在可以导致许多局部极值，而线性激活只能学习到一个主要模式，同时非线性对于两层网络的学习是很重要的，并且发现了全局调制现象。

Jun, 2022

一种可精确求解的涌现与缩放规律模型

深度学习模型的发展速度、数据量和模型规模的增加会导致其展示出解决新问题的突然能力，这被称为发生现象。本文提出了一个基于技能的框架，其中每一项新能力都被表示为基函数。我们在这个技能基上解决了一个简单的多线性模型，并得到了与培训时间、数据量、模型规模和最佳计算（C）有关的新能力的出现以及丢失的尺度规律的解析表达式。我们将详细的计算结果与在多任务稀疏奇偶性训练数据上训练的两层神经网络的直接模拟进行了比较，其中数据集的任务分布符合幂律分布。我们的简单模型使用了单一的拟合参数，能够捕捉到神经网络中随着训练时间、数据量或模型规模增加而出现的多个新技能的 S 型发生现象。

Apr, 2024