在了解神经网络结构之前进行预训练
本文提出一种基于图神经网络的 Hypernetwork 模型,可以利用已经训练好的神经网络的知识,直接预测神经网络参数,实验结果表明,该模型可以在 CPU 上在秒级时间内预测具有很高的精度和泛化能力,通过该模型的应用,可能开启训练神经网络的新篇章。
Oct, 2021
本文提出了一种新的神经网络结构搜索方法 ——Graph HyperNetworks,借助图神经网络来预测网络性能并直接生成权重,从而提高神经网络搜索效率;此外,Graph HyperNetworks 还可在任意预测环境下使用,在 CIFAR-10 和 ImageNet 等数据集上比现有手动设计网络更快且性能更好。
Oct, 2018
通过研究我们发现,量化感知训练可以显著提高 4 位量化 CNN 的 GHN 预测参数的精确性,甚至可以让 2 位量化 CNN 的 GHN 预测参数的精确性超过随机结果。这些有希望的结果为未来的研究开辟了新的方向。
Sep, 2023
利用 Graph Hypernetworks 预测未被量化的 CNN 架构的参数,发现 GHN-Q 可以成功预测各种 8 位量化 CNN 的量化鲁棒参数,甚至可以胜任 4 位量化,对低位的量化微调可能会有更好的表现,该模型对深度学习在边缘计算方面有重要帮助。
Aug, 2022
传统的卷积神经网络依赖于大量的图像数据,并使用迭代优化算法来学习网络参数,这使得训练非常耗时和资源密集。本文提出了一种新的训练范式,将卷积神经网络的参数学习形式化为一种预测任务,通过学习数据集与网络参数之间的超映射关系,来直接预测在训练阶段从未见过的图像数据的网络参数。这种基于超网络的模型称为 PudNet,通过共享权重的自适应超循环单元捕捉不同网络层之间的参数依赖关系。实验证明,我们提出的方法在两种设置下(数据集内预测和数据集间预测)对于未见过的图像数据集具有良好的效果。PudNet 还可以很好地应用于大规模数据集,例如 ImageNet-1K。训练 ResNet-18 使用 GC 从头开始,在 ImageNet-1K 上花费 8967 个 GPU 秒,并获得 44.65% 的前 5 准确率。然而,我们的 PudNet 仅花费 3.89 个 GPU 秒来预测 ResNet-18 的网络参数,达到相当的性能(44.92%),比传统训练范式快了超过 2300 倍。
Oct, 2023
在机器学习领域,使用大数据集对神经网络进行预训练已成为众多社群才能实现的基石之一,本文旨在实现预训练的民主化,并训练并发布出一种能够预测其他神经网络高质量 ImageNet 参数的单一神经网络,通过使用预测参数作为初始化,我们能够提高在 PyTorch 可用的不同 ImageNet 模型的训练效果.
Mar, 2023
深度神经网络模型通常需要大量训练数据,但是最近的研究结果表明高度参数化的神经网络可以在没有预训练或显式正则化的情况下实现泛化,这对于传统的机器学习是完全违背常识的,该研究进一步证实了这一观点,对于卷积神经网络的应用具有启示意义。
May, 2022
我们设计了一个更好的图神经网络预训练模型的微调策略(S2PGNN),该策略旨在提升模型性能,并在实证研究中展示了其在图级任务中的成果和比现有的微调策略更好的表现。
Aug, 2023
从一种大型的 ResNet152 骨干网络开始,本文通过将其从 51 个块降至 5 个块,将参数和 FLOPs 的数量降低了 6 倍以上,同时保留了性能,然后在 3 个块之后将模型分割为多个分支,创建一个子网络组合以提高性能。在 40 个图像分类数据集上的实验证明,本文的技术在与 “经典骨干微调” 相当甚至更好的性能的同时,实现了更小的模型尺寸和更快的推理速度。
Oct, 2023