在了解神经网络结构之前进行预训练

ICMLJul, 2022

在了解神经网络结构之前进行预训练

Pretraining a Neural Network before Knowing Its Architecture

Boris Knyazev

TL;DR通过训练较小的超级网络来预测大型神经网络的参数，以达到训练大型神经网络的目的，并提出了利用简单的后处理技术来改善对 ResNet-50 和 ConvNeXt 的调整。

Abstract

Training large neural networks is possible by training a smaller hypernetwork that predicts parameters for the large ones. A recently released Graph →

neural networks hypernetwork fine-tuning predicted parameters post-processing techniques

发现论文，激发创造

未知深度结构的参数预测

本文提出一种基于图神经网络的 Hypernetwork 模型，可以利用已经训练好的神经网络的知识，直接预测神经网络参数，实验结果表明，该模型可以在 CPU 上在秒级时间内预测具有很高的精度和泛化能力，通过该模型的应用，可能开启训练神经网络的新篇章。

Oct, 2021

图形超网络用于神经架构搜索

本文提出了一种新的神经网络结构搜索方法 ——Graph HyperNetworks，借助图神经网络来预测网络性能并直接生成权重，从而提高神经网络搜索效率；此外，Graph HyperNetworks 还可在任意预测环境下使用，在 CIFAR-10 和 ImageNet 等数据集上比现有手动设计网络更快且性能更好。

Oct, 2018

GHN-QAT：训练图超网络以预测在未见过的有限精度神经网络中抗量化参数

通过研究我们发现，量化感知训练可以显著提高 4 位量化 CNN 的 GHN 预测参数的精确性，甚至可以让 2 位量化 CNN 的 GHN 预测参数的精确性超过随机结果。这些有希望的结果为未来的研究开辟了新的方向。

Sep, 2023

通过图形超网络进行未见量化卷积架构的参数预测

利用 Graph Hypernetworks 预测未被量化的 CNN 架构的参数，发现 GHN-Q 可以成功预测各种 8 位量化 CNN 的量化鲁棒参数，甚至可以胜任 4 位量化，对低位的量化微调可能会有更好的表现，该模型对深度学习在边缘计算方面有重要帮助。

Aug, 2022

学习为未见图像数据生成 ConvNets 的参数

传统的卷积神经网络依赖于大量的图像数据，并使用迭代优化算法来学习网络参数，这使得训练非常耗时和资源密集。本文提出了一种新的训练范式，将卷积神经网络的参数学习形式化为一种预测任务，通过学习数据集与网络参数之间的超映射关系，来直接预测在训练阶段从未见过的图像数据的网络参数。这种基于超网络的模型称为 PudNet，通过共享权重的自适应超循环单元捕捉不同网络层之间的参数依赖关系。实验证明，我们提出的方法在两种设置下（数据集内预测和数据集间预测）对于未见过的图像数据集具有良好的效果。PudNet 还可以很好地应用于大规模数据集，例如 ImageNet-1K。训练 ResNet-18 使用 GC 从头开始，在 ImageNet-1K 上花费 8967 个 GPU 秒，并获得 44.65% 的前 5 准确率。然而，我们的 PudNet 仅花费 3.89 个 GPU 秒来预测 ResNet-18 的网络参数，达到相当的性能（44.92%），比传统训练范式快了超过 2300 倍。

Oct, 2023

Transformer 是否能预测不同 ImageNet 模型的参数？

在机器学习领域，使用大数据集对神经网络进行预训练已成为众多社群才能实现的基石之一，本文旨在实现预训练的民主化，并训练并发布出一种能够预测其他神经网络高质量 ImageNet 参数的单一神经网络，通过使用预测参数作为初始化，我们能够提高在 PyTorch 可用的不同 ImageNet 模型的训练效果.

Mar, 2023

无需显式正则化，使用极少数据从头开始学习的大型神经网络

深度神经网络模型通常需要大量训练数据，但是最近的研究结果表明高度参数化的神经网络可以在没有预训练或显式正则化的情况下实现泛化，这对于传统的机器学习是完全违背常识的，该研究进一步证实了这一观点，对于卷积神经网络的应用具有启示意义。

May, 2022

增加模型容量的微调：培育大脑

通过对 CNN 进行 fine-tuning，增加模型容量可以更自然的适应目标数据。同时，通过对比发现增加网络单元的增长方法在一些基准数据集中表现出色。

Jul, 2019

搜索以微调预训练的图神经网络用于图级任务

我们设计了一个更好的图神经网络预训练模型的微调策略（S2PGNN），该策略旨在提升模型性能，并在实证研究中展示了其在图级任务中的成果和比现有的微调策略更好的表现。

Aug, 2023

RRR-Net：重用、减少和循环利用深度骨干网络

从一种大型的 ResNet152 骨干网络开始，本文通过将其从 51 个块降至 5 个块，将参数和 FLOPs 的数量降低了 6 倍以上，同时保留了性能，然后在 3 个块之后将模型分割为多个分支，创建一个子网络组合以提高性能。在 40 个图像分类数据集上的实验证明，本文的技术在与 “经典骨干微调” 相当甚至更好的性能的同时，实现了更小的模型尺寸和更快的推理速度。

Oct, 2023