BriefGPT.xyz
Mar, 2022
前馈神经网络中的活动-权重对偶:泛化的几何决定因素
The activity-weight duality in feed forward neural networks: The geometric determinants of generalization
HTML
PDF
Yu Feng, Yuhai Tu
TL;DR
通过发现前馈神经网络中某一层神经元的活动变化与连接到下一层神经元的权重变化之间的完全对偶性,我们提出了一个统一的框架来研究如何控制两个几何因子(loss地形的尖锐度和双重权重值的标准差,其缩放与解的权重范数成比例)来影响一般化的性能,控制分类器的通用性。
Abstract
One of the fundamental problems in machine learning is
generalization
. In
neural network
models with a large number of
weights
(parameters
→