Sep, 2023

SortedNet:为每个网络提供位置,为每个网络找到合适位置:面向广义解决方案的训练多对一神经网络

TL;DR深度学习模型大小的增长导致在内存和计算约束下寻找最优模型变得更加重要,该论文提出了 SortedNet,一种利用深度神经网络的内在模块化性质实现高效动态推断的通用可扩展解决方案。我们的训练方法考虑了子模型的嵌套架构和共享参数,并以排序和概率的方式一起训练主模型和子模型。在推断过程中,我们无需搜索即可选择子网络,并且生成的子网络具有最小的存储要求和高效的切换能力。实验证明该方法的有效性,同时在保持模型性能的情况下,演示了我们的方法在同时训练多达 160 个不同子模型的广泛可扩展性。