有原则的考虑架构的超参数缩放

Feb, 2024

Principled Architecture-aware Scaling of Hyperparameters

Wuyang Chen, Junru Wu, Zhangyang Wang, Boris Hanin

TL;DR通过对神经网络架构的深入研究，在初始化和学习率方面提出了新的原则，并验证了其对网络性能的改进，从而为当前架构设计的基准测试提供了新的方法。

Abstract

Training a high-quality deep neural network requires choosing suitable hyperparameters, which is a non-trivial and expensive process. Current works try to automatically optimize or design principles of

deep neural network hyperparameters neural architectures initializations learning rates

发现论文，激发创造

神经网络架构的贝叶斯学习

本研究提出一种基于贝叶斯方法的神经网络架构参数估计方法，通过学习这些参数的具体分布来实现。研究表明，具有学习结构的正则网络在小数据集上可以更好地泛化，而完全随机化的网络可以更强健地处理参数初始化。与基于随机搜索的架构搜索不同，所提出的方法依赖于标准的神经变分学习，不需要对模型进行重新训练，从而最小化计算开销。

Jan, 2019

自动梯度下降：无超参数的深度学习

本文提出了一个新的框架来得出能够自动、无需超参数训练全连接和卷积神经网络的一阶优化器：自动梯度下降。该理论为下一代结构相关的优化器提供了严谨的理论基础。

Apr, 2023

DeepArchitect: 自动设计和训练深层体系结构

本文提出一种可自动设计、训练深度神经网络的框架，通过自动配置架构和超参数进行模型搜索，实现了对复杂搜索空间的高效探索，并展示了随机搜索、蒙特卡罗树搜索和顺序模型优化等多种模型搜索算法在 CIFAR-10 数据集上的比较试验结果。

Apr, 2017

神经架构搜索综述

本文综述了现有的方法，囊括了计算机领域中的神经体系结构搜索、自动化方法和深度学习等方面，内容包括常用的体系结构搜索空间和基于强化学习和进化算法的体系结构优化算法、模拟模型和单次模型。同时，文章对新的研究方向进行了探讨。

May, 2019

超越均匀缩放：探索神经结构中的深度异质性

基于第二阶损失景观信息的自动缩放方法，以灵活适应视觉变换器中的跳跃连接；在 DeiT-S 与 ImageNet100 上广泛评估，相较于传统缩放，准确率提高 2.5%，参数效率提高 10%；缩放网络在从头训练小规模数据集时表现出卓越性能，是视觉变换器的首个完整缩放机制，实现高效模型缩放的一步。

Feb, 2024

混合架构的机理设计与缩放

通过深度学习架构的机械设计管道，我们提出了一种新的混合架构，通过集成多种计算基元，利用合成任务对性能进行测试，并验证其在计算和状态最优化方面的表现优于传统架构。

Mar, 2024

使用误差反向传播学习神经网络架构

研究了深度神经网络中参数数量的问题，提出了一种可学习的三态 ReLU 参数和一个平稳的正则化方法，通过减少不必要的神经元，可以在不影响预测准确性的情况下显著减少参数数量。

Nov, 2015

优化密集前馈神经网络

通过剪枝和迁移学习，我们提出了一种新颖的前馈神经网络构建方法，能在不损失准确率的情况下压缩参数数量超过 70%，并且通过精心选择剪枝参数，大多数精炼模型的性能优于原始模型，从而不仅有助于更高效的模型设计，而且更有效的使用。

Dec, 2023

基于数据驱动的深度神经网络稀疏结构选择

本文提出了一种简单有效的框架来对深度模型进行端到端的剪枝，方法是先引入一个称为 “缩放因子” 的新参数来缩放特定结构的输出，然后对这些因子加入稀疏正则化，并通过修改的随机加速远端梯度（APG）方法解决这个优化问题。将某些因子强制为零，可以安全地移除对应的结构，从而削减 CNN 的不重要部分，该方法相较于其他需要数千次试验或迭代微调的结构选择方法具有更好的性能。

Jul, 2017

神经架构搜索中的深度主动学习

本文研究了主动学习深度神经网络，并提出了一种新的主动策略，该策略能够在学习过程中搜索有效的架构，同时使用三种已知的查询技术（softmax response，MC-dropout 和 coresets）进行应用，结果表明该方法在固定架构的主动学习方面表现出显著的优势。

Nov, 2018