自扩展神经网络

Jul, 2023

Self Expanding Neural Networks

Rupert Mitchell, Martin Mundt, Kristian Kersting

TL;DR我们通过自然梯度的方法，动态地扩展神经网络的宽度和深度，以降低训练过程中的损失。对于不确定合适的网络架构尺寸的问题，我们提出了一种自动收缩神经网络的方法。

Abstract

The results of training a neural network are heavily dependent on the architecture chosen; and even a modification of only the size of the network, however small, typically involves restarting the →

neural network architecture training process natural gradient width and depth narrowing down architecture size

发现论文，激发创造

自扩展卷积神经网络

本文介绍了一种动态扩展卷积神经网络的新方法，通过使用自适应扩展评分作为扩展标准，解决了深度卷积神经网络中参数过多的常见问题，从而确保模型的复杂性与任务需求相匹配。该方法的一个显著优势是环保性质，因为它省去了训练多个不同大小模型的必要性。通过单个模型的动态扩展，实现了从单个训练会话中提取具有不同复杂性级别的检查点，有效降低了计算资源使用和能源消耗，同时加快了开发周期，提供了多样化的模型复杂性。在 CIFAR-10 数据集上评估了该方法，实验结果验证了该方法的有效性，表明动态添加层不仅可以维持 CNN 性能，还可以改进其性能，从而解决了深度学习领域的关键挑战。

Jan, 2024

可组合功能保持扩展的 Transformer 架构

通过逐步增加转换器神经网络的大小，以保留功能，并在最小初始化约束下提供确切的功能保留证明，本研究提出六种组合的转换方法，可能通过逐步扩展架构来实现更大、更强大的模型的高效训练管道。

Aug, 2023

自适应神经网络：应用于 n-gram 语言模型

本文介绍一个通过正则化方法对神经网络进行自动调整的算法，此算法可以用于选择神经网络中隐藏层单元的数量，同时用于语言模型和机器翻译中保持了困惑度，使得更小的神经网络可以维持 unpruned 版本的显著改进。

Aug, 2015

非参数神经网络

本文使用非参数方法研究神经网络中自动寻找最佳规模的问题，提出了一种使用 Lp 惩罚项限制增长的方法，并使用 AdaRad 优化算法进行训练，取得了良好的结果。

Dec, 2017

训练非常深的网络

本文介绍了一种名为 “HighWay Network” 的新型深度神经网络模型，采用门控单元对信息流进行监控，以实现高效的信息传递，从而克服了训练深度神经网络的问题。

Jul, 2015

神经结构搜索的演化搜索空间

通过维护一个优化的搜索空间子集的神经搜索空间演化（NSE）方案，引入可学习的多分支设置，实现了神经架构设计的自动化和优化，以在 ImageNet 上实现优异的表现和响应延迟限制。

Nov, 2020

基于熵的深度神经网络引导加速收敛与提升性能

通过引入基于熵的损失项，我们提出了一种新的方法来加强神经网络学习丰富的潜在数据表示，在更少的维度上收敛于更好的测试指标，并在图像压缩和图像分类的实验中展示了其有效性。

Aug, 2023

大型神经网络浪费容量

该研究发现，一些较大的神经网络在增加容量以减少欠拟合方面失败，这可能是由于训练误差方面容量的收益急剧减少导致的，指出了优化方法（一阶梯度下降）在这种情况下失败。通过直接解决这个问题，可以通过优化方法或参数化选择来改善需要大容量的大型数据集上的泛化误差。

Jan, 2013

任意深度的宽神经网络在梯度下降下演化为线性模型

本文研究神经网络的学习和泛化性能，发现对于宽神经网络，学习动态变得简单，并且在无限宽度的极限下，它们由网络初始参数的一阶泰勒展开得到的线性模型控制。同时，通过在广义上拟合高斯过程的理论，揭示了神经网络可能表现出高斯过程的特性。

Feb, 2019

ExpandNets：利用线性过参数化训练紧凑卷积网络

本文介绍了一种利用过参数化的方法来训练紧凑型神经网络的方法，通过将紧凑型神经网络的线性层扩展成多个连续的线性层，而不添加非线性化，形成扩展网络 ExpandNet，可在推理时代数地缩小回紧凑型神经网络。我们提出了两种卷积扩展策略，并在图像分类、目标检测和语义分割等任务上展示了他们的优势，证明了我们的方法优于从头开始训练紧凑型网络和从教师进行知识蒸馏。此外，我们通过实验证明了过参数化可减少训练时的梯度混淆，提高网络的泛化能力。

Nov, 2018