非参数神经网络

ICLRDec, 2017

Nonparametric Neural Networks

George Philipp, Jaime G. Carbonell

TL;DR本文使用非参数方法研究神经网络中自动寻找最佳规模的问题，提出了一种使用 Lp 惩罚项限制增长的方法，并使用 AdaRad 优化算法进行训练，取得了良好的结果。

Abstract

Automatically determining the optimal size of a neural network for a given task without prior information currently requires an expensive global search and training many networks from scratch. In this paper, we address the problem of automatically finding a good network size during a s

neural network nonparametric optimization l_p penalty adarad

发现论文，激发创造

自适应神经网络：应用于 n-gram 语言模型

本文介绍一个通过正则化方法对神经网络进行自动调整的算法，此算法可以用于选择神经网络中隐藏层单元的数量，同时用于语言模型和机器翻译中保持了困惑度，使得更小的神经网络可以维持 unpruned 版本的显著改进。

Aug, 2015

神经网络超参数优化的有效算法

本文中提出了一种基于箱限制数学优化问题的方法，运用光滑径向基函数模型及无导数优化工具去寻找神经网络的最佳参数。该方法是自动的且可有效地搜索参数空间，其应用于药物相互作用的预测中具有良好的效果，并且所用的优化工具是开源的。

May, 2017

高维非参数回归和分类的稀疏输入神经网络

该论文提出了使用稀疏组套索惩罚来适应神经网络以解决非参数高维问题，其中真实功能位于低维子空间中，并对统计收敛性进行了表征。

Nov, 2017

自扩展神经网络

我们通过自然梯度的方法，动态地扩展神经网络的宽度和深度，以降低训练过程中的损失。对于不确定合适的网络架构尺寸的问题，我们提出了一种自动收缩神经网络的方法。

Jul, 2023

利用方差迁移和学习速率自适应增量式生长神经网络加速训练

通过考虑参数化和优化策略对训练动态的影响，我们开发了一种高效增长神经网络的方法，该方法动态稳定权重、激活和梯度缩放，提出一种学习率适应机制来解决不平衡训练问题，并取得了与训练大型固定模型相当或更好的准确性和训练速度加快。

Jun, 2023

AdaNet：人工神经网络的自适应结构学习

本文提出了新的自适应学习人工神经网络的算法 (AdaNet)，可以同时自适应地学习网络结构和权重。通过大规模实验，证明该算法在二元分类任务中表现出色，并且与传统方法中得到的神经网络相比具有竞争力的性能准确性。

Jul, 2016

神经网络架构的贝叶斯学习

本研究提出一种基于贝叶斯方法的神经网络架构参数估计方法，通过学习这些参数的具体分布来实现。研究表明，具有学习结构的正则网络在小数据集上可以更好地泛化，而完全随机化的网络可以更强健地处理参数初始化。与基于随机搜索的架构搜索不同，所提出的方法依赖于标准的神经变分学习，不需要对模型进行重新训练，从而最小化计算开销。

Jan, 2019

标准化神经网络的自动优化

利用矩阵流形的几何性质，我们提出了一种自动优化方法，对神经网络的归一化参数进行优化。通过层次化的权重归一化以限制利普希茨常数并增强梯度的可靠性，使训练后的网络适用于控制应用。通过初始化网络和根据初始化网络的 2-2 增益对数据进行归一化，我们的方法首先对网络进行初始化。然后，所提出的算法基于高维球面上的指数映射来进行更新。给定一个更新方向（如负内腔梯度），我们提出了两种不同的方式来确定下降的步长。第一种算法利用目标函数沿着组合球面流形上定义的更新曲线进行的自动微分。利用方向二阶导数信息，无需显式构造海森矩阵。第二种算法利用架构感知的主导次数极小化框架进行神经网络的优化。通过这些新进展，所提出的方法避免了手动调优和学习率的调度，从而为优化归一化神经网络提供了自动化的流程。

Dec, 2023

高维稀疏回归中的非参数估计稀疏深度神经网络

非参数方法估计部分导数与稀疏深度神经网络的参数估计结合，为深度神经网络的可解释性提供了有前景的研究结果。

Jun, 2024

神经网络的大小无关样本复杂度

研究神经网络学习的样本复杂度，提供了关于每层参数矩阵范数约束的 Rademacher 复杂度的新界限，改进了前人的成果，并使用一些新技术获得了网络深度的改进关系，且在一些额外假设的情况下，完全独立于网络大小 (深度和宽度)。

Dec, 2017