通过对学习到的优化函数进行训练以执行特定任务,我们提出了一种训练方案,它可以比经过调整的一阶方法更快地训练卷积网络,并在测试损失上得到改进。
Oct, 2018
本文讲述了利用神经网络参数化的层次优化器提供自动正则化的能力,从而可以训练多种问题的通用学习优化器,可适应超参数和架构的变化,且适用于自我训练等需要解决分布问题的任务。
Sep, 2020
通过与深度学习相同的扩展方法,我们训练一种自适应的深度学习优化器。这个优化器是一个小型神经网络,可摄取梯度并输出参数更新,经过数千个 TPU 月的计算,不需要超参数调整,可以自适应问题进行优化。
Nov, 2022
这篇论文全面介绍了深度学习中的优化,重点关注梯度消失和梯度爆炸带来的挑战,提出了改进梯度流和对网络的 Lipschitz 常数施加限制等策略,并将优化方法分为两类:显式优化和隐式优化。通过对多个深度学习模块的雅可比矩阵和 Lipschitz 常数进行分析和实验,为读者提供了深入的理解。
Jun, 2023
本文基于动态系统和最优控制的视角, 将现有的深度学习理论框架进行整合, 并用随机动态的优化算法作为控制器,为超参数调整提供了一个基于原则的方法。
Aug, 2019
本文介绍了基于随机矩阵的框架来分析单层线性网络在大维度和规模数据上通过梯度下降训练的学习动态,并对神经网络中的过拟合、早停和训练初始化等问题提供了深入的见解,为进一步研究今天神经网络中出现的更复杂的结构和模型打开了大门。
May, 2018
本文提出了一种学习自我学习模型和一些实用技巧,以优化损失函数的训练问题,其优化器在许多任务上优于通用的优化算法和 DeepMind 的学习优化器,包括深度 MLP、CNN 和简单的 LSTM。
Mar, 2017
本篇文章研究了一种数据驱动的元学习方法,使用此方法可以训练出一个能够优化强化学习的通用优化器,而且可以应用于复杂任务。这个优化器的结构大大提高了学习优化器的训练效率,并且已经证明其能够泛化到未知的复杂任务。
Feb, 2023
通过使用离散时间动力系统的 Koopman 算子理论,我们发现在线镜像和梯度下降的 Koopman 谱高度重叠,并提供了第一个关于机器学习方法优化选择的泛化特征化,包括学习率,批量大小,层宽,数据集和激活函数等多个因素的影响。
本文研究深度神经网络的训练动态,提出旋转变量优化器,通过移除传递相应收敛期可达到与原始变量优化器类似的性能,降低了对学习率热身的需求,并改善了对网络归一化不足的优化。
May, 2023