overparameterized models | BriefGPT

关键词overparameterized models

搜索结果 - 25

隐式梯度正则化
本文研究了梯度下降算法在优化神经网络时的表现，发现梯度下降中的离散步骤隐含地通过惩罚大损失梯度轨迹的方式实现了模型的正则化，这种 “隐性梯度正则化” 导致梯度下降趋向于平坦的最小值，使解决方案对噪声参数扰动有很好的鲁棒性，这一理论有助于解决
PDF4 years ago
过度参数化模型下的离线情境挑战
该论文研究了过参数化模型在离线上下文赌博中的泛化能力，在价值算法中与过参数化监督学习类似，策略算法却不是这样。我们证明了价值目标是稳定的，策略目标是不稳定的。实验证明了此现象的可靠性。
PDF4 years ago
形状对噪声协方差隐式偏差的影响
本文中，我们理论上证明了随机梯度下降法（SGD）中参数相关噪声（由小批量或标签扰动引起）比高斯噪声更加有效，并且具有对训练过度参数化模型的重要隐式正则化效应。
PDF4 years ago
ICLR基于压缩的非压缩网络界限：大型可压缩深度神经网络统一泛化误差分析
本文提出一种统一框架，将压缩基础界限转化为非压缩原始网络的界限，并建立数据相关的泛化误差界限，比数据独立的误差界限更紧密。
PDF5 years ago
所有层都是平等的吗？
本文研究过参数化深度神经网络的层级功能结构和行为，通过实验重置权重值并从层的鲁棒性与性能下降角度分析了网络层级的异质性，提供了理论分析证明 “健壮” 与 “关键” 层的存在，并呼吁关注模型的 “平坦性” 和 “稳健性” 以实现深度模型的广义
PDF5 years ago