分裂最陡下降用于增长神经结构

Oct, 2019

Splitting Steepest Descent for Growing Neural Architectures

Qiang Liu, Lemeng Wu, Dilin Wang

TL;DR本研究提出了一种逐步训练神经网络的方法，该方法通过将现有神经元分裂成多个比较小的单元，从而自适应地增长网络结构。该方法的优点在于其使用了一种名为函数最速下降法的思路来决定神经元裂变的最佳子集并进行最优更新。这种方法提供了一种新的高效优化神经网络结构的方法，特别适合在资源受限的环境下学习轻量级神经结构。

Abstract

We develop a progressive training approach for neural networks which adaptively grows the network structure by splitting existing neurons to multiple off-springs. By leveraging a functional →

neural networks progressive training splitting neurons steepest descent resource-constrained settings

发现论文，激发创造

最陡下降神经架构优化：通过有符号神经分裂逃离局部最优

本研究提出通过在当前的神经网络结构中加入正负权重拆分来消除局部最优问题，进而增强神经结构优化效果的方法，应用于 CIFAR-100，ImageNet，ModelNet40 等挑战性数据集上表现优异并超过了同类型算法

Mar, 2020

梯度下降剪枝神经网络

我们介绍了一种新颖而简单的神经网络剪枝框架，通过引入 Gumbel-Softmax 技术，在端到端的过程中使用随机梯度下降同时优化网络的权重和拓扑结构，实现了网络的卓越压缩能力，保持了在 MNIST 数据集上的高准确性，仅使用了原始网络参数的 0.15％。此外，我们的框架提升了神经网络的可解释性，不仅能够轻松从剪枝网络中提取特征重要性，而且能够可视化特征对称性和信息传递路径，学习策略通过深度学习得到，但却令人惊讶地直观且可理解，专注于选择重要的代表性特征并利用数据模式实现极度稀疏的剪枝。我们相信我们的方法为深度学习剪枝和可解释的机器学习系统的创建开辟了有前途的新途径。

Nov, 2023

自动梯度下降：无超参数的深度学习

本文提出了一个新的框架来得出能够自动、无需超参数训练全连接和卷积神经网络的一阶优化器：自动梯度下降。该理论为下一代结构相关的优化器提供了严谨的理论基础。

Apr, 2023

萤火虫神经架构下降：一种通用方法用于成长神经网络

该论文提出了 “萤火虫神经结构下降”—— 一种渐进和动态扩展神经网络的通用框架，以共同优化网络参数和结构，在连续学习中实现准确且资源有效的神经结构的学习，并在神经结构搜索和连续学习任务中实现了有希望的结果。

Feb, 2021

自然梯度下降的结构化二阶方法

本研究提出了一种基于自然梯度下降的新结构化二阶方法与结构化自适应梯度方法，用于解决经典的非凸问题和深度学习问题。

Jul, 2021

深度神经网络是否能避免双重下降现象？

在深度学习模型中，找到最佳大小对于节能取得高广泛影响。通过恰当的条件，可能避免双下降现象，其中模型大小增长时性能会先变差然后变好，以维持高泛化的效果需要充分过参数化的模型，但添加太多参数会浪费培训资源。在复杂情况下，正则化已经对避免双下降产生了积极作用。

Feb, 2023

自适应梯度下降（无需下降）

本文提供一个简明的证明，只需遵循两个规则即可自动化梯度下降：1）不要过快增加步长，2）不要超出局部曲率；通过遵循这些规则，可以得到对局部几何条件自适应的方法，收敛保证只取决于解的附近的平滑度，因此收敛于任何凸问题中，包括可以最小化任意连续两次可微的凸函数的问题，本文将探讨该方法在一系列凸和非凸问题上的性能。

Oct, 2019

神经架构搜索的几何感知梯度算法

本文研究神经架构搜索中的优化问题，提出一种基于单层经验风险最小化的几何感知框架，结合梯度下降和正则化的优化器，通过基于连续优化的松弛方法实现对离散寻找空间的搜索，成功为计算机视觉中的最新 NAS 基准提供了一种优异的算法。

Apr, 2020

通过结构化连续稀疏化增加深度网络的效率

本文提出了一种基于准确性和稀疏性目标的深层网络动态构建算法，与传统的剪枝方法不同，本方法采用渐进式连续松弛和网络优化，然后采样稀疏子网络，使得训练出来的深层网络更加高效。实验结果证明，采用本算法训练的网络比其他竞争的剪枝方法更加精确且规模更小。

Jul, 2020

多分辨率在线确定性退火：一种层次和渐进式学习架构

本研究提出了一种基于渐进分区多分辨率数据空间的多目标分层学习结构，能够通过两个时间量级的随机逼近算法来逐步增加学习架构的复杂性，获取任务下特定数据空间的最优划分。

Dec, 2022