关键词over-parametrized models
搜索结果 - 3
- 基于切空间敏感性的 ReLU 网络的优化相关泛化界
最近深度学习取得了一些极有前途的成果,尤其是在深度神经网络的泛化能力方面,然而相关文献中仍缺乏一种全面的理论来解释为什么过度参数化的模型能够在拟合训练数据的同时表现出良好的泛化能力。本文通过估计通过梯度下降从初始参数向量获得的网络集合的 R - ICLR采用平滑唯一信息估计样本信息价值
研究提出了一种针对神经网络的信息定义,可以测量样本对模型训练的影响程度和其计算函数的影响程度,利用线性网络提供了这些量的高效近似值并应用于数据集的总结、不足采样类别的分析、不同数据源信息量的比较和识别对抗样本等多个问题。
- 关于非凸过参数化学习中 SGD 的指数收敛
该文研究了使用随机梯度下降方法学习的大型过度参数化模型的收敛速度,并证明了当损失函数为凸函数或满足 Polyak-Lojasiewicz 条件的广泛非凸函数类时,常数步长下 SGD 可以实现指数收敛。