SortedNet：为每个网络提供位置，为每个网络找到合适位置：面向广义解决方案的训练多对一神经网络

Sep, 2023

SortedNet：为每个网络提供位置，为每个网络找到合适位置：面向广义解决方案的训练多对一神经网络

SortedNet, a Place for Every Network and Every Network in its Place: Towards a Generalized Solution for Training Many-in-One Neural Networks

PDF

Mojtaba Valipour, Mehdi Rezagholizadeh, Hossein Rajabzadeh, Marzieh Tahaei, Boxing Chen...

TL;DR深度学习模型大小的增长导致在内存和计算约束下寻找最优模型变得更加重要，该论文提出了 SortedNet，一种利用深度神经网络的内在模块化性质实现高效动态推断的通用可扩展解决方案。我们的训练方法考虑了子模型的嵌套架构和共享参数，并以排序和概率的方式一起训练主模型和子模型。在推断过程中，我们无需搜索即可选择子网络，并且生成的子网络具有最小的存储要求和高效的切换能力。实验证明该方法的有效性，同时在保持模型性能的情况下，演示了我们的方法在同时训练多达 160 个不同子模型的广泛可扩展性。

Abstract

As the size of deep learning models continues to grow, finding optimal models under memory and computation constraints becomes increasingly more important. Although usually the architecture and constituent buildi

deep learning models memory and computation constraints modularity dynamic inference training efficiency

发现论文，激发创造

动态训练和可定制推断的弹性神经网络

通过动态神经网络的方法，我们提出了一种训练大型网络并在推理阶段从中提取子网络的简单方式，以满足模型尺寸或复杂性约束，实验证明该方法可以在单个大型模型中显著缩短训练时间，并在不同子网络尺寸和复杂性上有效提高分离性能。

Dec, 2023

可微分排序网络用于可扩展的排序和排名监督

该研究提出可微分的排序网络来训练神经网络，能够在排序约束条件下进行端到端的训练，此方法能够在不需要绝对数值监督的情况下，实现对神经网络的训练和优化，并探究多层神经网络训练时可能产生的梯度消失和模糊化等问题，证明了拟制的依次比较和比特位排序网络在大规模数据集上的优越表现。

May, 2021

子网络集成

本论文介绍了一种低成本框架用于构建子网络集合，通过从已训练的母模型中采样、扰动和优化子网络的方式形成子网络集合，研究发现该方法可以显著提高训练效率、参数利用以及泛化性能，同时最小化计算成本，通过利用深度神经网络的潜力来构建更好的系统。

Nov, 2023

MotherNets: 快速深度集成学习

该研究提出 MotherNets 来解决深度神经网络集成中的训练成本和模型多样性问题，并在减少训练成本和提高模型精度方面取得了新的 Pareto 前沿。

Sep, 2018

基于竖向切片网络的任意时间神经预测

在本文中，我们提出了许多包容性的全新的 Thin Sub-networks 架构，并通过强制在多分支网络参数上施加某些稀疏模式来训练它们，实现更高效的任意时间预测。我们在 ImageNet 数据集上进行的实验表明，相对于同等准确性的任意时间模型，其子网络可减少高达 43.3％的大小（FLOPs）

Jul, 2018

一种硬件感知系统，用于加速深度神经网络优化

本文提出了一个自动且高效地从预训练的超网络中找到针对不同性能度量和硬件配置进行优化的子网络的综合系统，在多个领域中与现有最先进的超网络训练方法无缝配合，展示了如何将新颖的搜索策略与演化算法相结合，加速 ResNet50、MobileNetV3 和 Transformer 的搜索过程，并展示了比最先进的贝叶斯优化 WeakNAS 方法快 8 倍的搜索结果。

Feb, 2022

SortNet: 通过基于神经网络的排序算法学习排序

透过使用神经网络作为比较器的排序算法 SortNet，在 LETOR 数据集上展现出与其他先进算法相比具有潜力的性能。

Nov, 2023

混合超网络：通过架构路由的专家混合改进权重共享超网络训练

本文提出一种新的神经结构搜索方法，即混合超网，通过引入专家混合，提供了更加专业的模型选择，并通过路由机制调整各子网络的权重，有效提高了超网模型的性能，实验表明该方法在机器翻译和 BERT 模型中均取得了优异的性能。

Jun, 2023

NestedNet: 在深度神经网络中学习嵌套稀疏结构

本文提出了一种新的深度学习框架，称为嵌套稀疏网络，它利用神经网络中的 n-in-1 类型嵌套结构，实现资源感知的多功能体系结构，可以满足不同的资源要求，并利用层次分类实现了多任务学习。此外，我们还提出了有效的权重连接学习和通道和层次调度策略，评估了我们的网络在多种任务中的性能。结果表明，嵌套稀疏网络相比现有方法具有更高的效率和竞争力。

Dec, 2017

使用独立子网络训练的分布式深度神经网络学习

提出了一种名为独立子网训练（IST）的分布式全连接神经网络学习新方法，通过将原始网络分解成具有相同深度的一组窄子网络，使 IST 能够有效处理强制分布式数据、慢速互连或有限设备内存等问题，并且训练时间远低于传统的分布式学习方法。

Oct, 2019