自动梯度下降：无超参数的深度学习

Apr, 2023

自动梯度下降：无超参数的深度学习

Automatic Gradient Descent: Deep Learning without Hyperparameters

Jeremy Bernstein, Chris Mingard, Kevin Huang, Navid Azizan, Yisong Yue

TL;DR本文提出了一个新的框架来得出能够自动、无需超参数训练全连接和卷积神经网络的一阶优化器：自动梯度下降。该理论为下一代结构相关的优化器提供了严谨的理论基础。

Abstract

The architecture of a deep neural network is defined explicitly in terms of the number of layers, the width of each layer and the general network topology. Existing optimisation frameworks neglect this informatio

deep neural network optimisation neural architecture gradient descent hyperparameters

发现论文，激发创造

深度神经网络结构和超参数优化的算法框架

本篇论文提出一种基于演化有向无环图的算法框架，自动生成高效的深度神经网络并优化其相关超参数，与已有文献中的搜索空间相比更具灵活性，能优化网络的结构和超参数，已经在时间序列预测基准测试中得到了实验结果的验证。

Feb, 2023

有原则的考虑架构的超参数缩放

通过对神经网络架构的深入研究，在初始化和学习率方面提出了新的原则，并验证了其对网络性能的改进，从而为当前架构设计的基准测试提供了新的方法。

Feb, 2024

DeepArchitect: 自动设计和训练深层体系结构

本文提出一种可自动设计、训练深度神经网络的框架，通过自动配置架构和超参数进行模型搜索，实现了对复杂搜索空间的高效探索，并展示了随机搜索、蒙特卡罗树搜索和顺序模型优化等多种模型搜索算法在 CIFAR-10 数据集上的比较试验结果。

Apr, 2017

深度神经网络的稳定结构

本文提出了一种新颖的前向传播算法，其灵感来源于 ODE 系统，能够克服深度神经网络设计和训练中的挑战，并通过对稳定性和合理性的分析，发展了新的网络架构，以稳定深度学习，且具有竞争力。

May, 2017

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018

神经架构搜索的几何感知梯度算法

本文研究神经架构搜索中的优化问题，提出一种基于单层经验风险最小化的几何感知框架，结合梯度下降和正则化的优化器，通过基于连续优化的松弛方法实现对离散寻找空间的搜索，成功为计算机视觉中的最新 NAS 基准提供了一种优异的算法。

Apr, 2020

用梯度下降训练学无梯度下降的学习

通过比较基于贝叶斯优化的算法，我们研究了在简单合成函数上训练的循环神经网络优化器的性能，发现这些训练后的优化器在不同的黑盒函数优化、超参数整定和全局优化基准测试中表现优异。

Nov, 2016

深度神经网络结构设计的优化算法启发

本文提出了一种通过优化算法启发设计深度神经网络结构的方法，研究者们发现，用斜率下降算法替代传统的梯度下降算法有望提高神经网络的速度和性能，并在 CIFAR-10，CIFAR-100 和 ImageNet 数据集上取得了优于 ResNet 和 DenseNet 的结果。

Oct, 2018

神经架构搜索综述

本文综述了现有的方法，囊括了计算机领域中的神经体系结构搜索、自动化方法和深度学习等方面，内容包括常用的体系结构搜索空间和基于强化学习和进化算法的体系结构优化算法、模拟模型和单次模型。同时，文章对新的研究方向进行了探讨。

May, 2019

分裂最陡下降用于增长神经结构

本研究提出了一种逐步训练神经网络的方法，该方法通过将现有神经元分裂成多个比较小的单元，从而自适应地增长网络结构。该方法的优点在于其使用了一种名为函数最速下降法的思路来决定神经元裂变的最佳子集并进行最优更新。这种方法提供了一种新的高效优化神经网络结构的方法，特别适合在资源受限的环境下学习轻量级神经结构。

Oct, 2019