Oct, 2024

无过度参数化的神经网络损失景观特征化

TL;DR本研究针对深度学习模型损失景观的复杂非凸性,提出一种新的函数类,以解决现有优化方法对过度参数化的依赖。研究表明,在这种新假设下,基于梯度的优化器具备收敛的理论保证,且通过理论分析和实验证明了其有效性。