BriefGPT.xyz
Ask
alpha
关键词
training and generalization properties
搜索结果 - 2
随机微分方程模型化 SGD 的有效性
通过实验和理论分析,本文揭示了有限 LR 的 SGD(随机梯度下降)可以用 Ito 随机微分方程近似,且该近似可以捕捉常见深度神经网络的训练和泛化特性,提出了线性缩放规则的必要条件。
PDF
3 years ago
神经网络的细粒度光谱分析
本文从谱的角度研究共轭内核(Conjugate Kernel,CK)和神经切向内核(Neural Tangent Kernel,NTK)的特性,分析它们的特征值,得出关于神经网络的初始化分布和训练、泛化特性等问题的新见解,并通过广泛的神经网
→
PDF
5 years ago
Prev
Next