ResNet 归来:一种改进的 timm 训练过程
本文重新研究了经典的 ResNet 模型,并重点讨论了模型架构、训练方法和扩展策略对模型性能的影响。作者发现,训练方法和扩展策略可能比模型架构的变化更重要,同时作者提出了两种新的扩展策略,并设计了一系列 ResNet 架构。实验结果表明,这些简单修改的 ResNet 模型比 EfficientNet 更快,且在 ImageNet 上达到了类似的准确性,同时在半监督学习和下游任务转移学习上也有显著提升。
Mar, 2021
介绍了一个深度双流架构 Resnet in Resnet(RiR),该架构推广了 Residual networks(ResNets)和标准 CNNs,且无计算开销,通过在 CIFAR-10 上实现,RiR 不断提高性能、在 CIFAR-100 上创新了新的最优结果
Mar, 2016
本研究设计和训练了一个大小不超过 500 万可训练参数的修改版 ResNet 模型用于 CIFAR-10 图像分类,通过一些训练策略和合适的超参数,最终测试准确率达到 96.04%。
Jun, 2023
从一种大型的 ResNet152 骨干网络开始,本文通过将其从 51 个块降至 5 个块,将参数和 FLOPs 的数量降低了 6 倍以上,同时保留了性能,然后在 3 个块之后将模型分割为多个分支,创建一个子网络组合以提高性能。在 40 个图像分类数据集上的实验证明,本文的技术在与 “经典骨干微调” 相当甚至更好的性能的同时,实现了更小的模型尺寸和更快的推理速度。
Oct, 2023
本文探讨了在 petaflop 级超级计算机上训练 ResNet-50 的挑战和新解决方案,最终展示了高达 90%的扩展效率和 28 分钟的训练时间。同时介绍了 Collapsed Ensemble (CE) 技术,使得在相同的固定训练预算下,使用未修改的 ResNet-50 拓扑结构可以获得高达 77.5%的准确率,类似于 ResNet-152。
Nov, 2017
本篇论文分析了 ResNet 的简化模型,并认为 ResNet 的好处与其对初始权重的选择较为不敏感有关系。此外,本文还演示了如何利用批归一化提高深度 ResNets 的反向传播能力,而无需调整初始权重值。
Sep, 2017
介绍了基于 ImageNet 预训练的卷积神经网络(CNNs)在最先进的方法中的应用,提出了一组新的基于 Caffe 框架的著名最新结构的预训练模型,并且包括 ResNets、AlexNet 和 VGG19 的批归一化变体等模型,优于以前的具有相同架构的模型。
Dec, 2016
本文探讨了图像分类模型训练过程中的一些改进方法,如数据增强和优化方法的变化,通过实验证明这些改进方法的整合能够显著提高 CNN 模型的准确性,在 ImageNet 上,我们将 ResNet-50 的 top-1 验证准确率从 75.3% 提高到 79.29%,而且还证明了这种提高对于其他应用领域,如目标检测和语义分割,也具有更好的迁移学习性能。
Dec, 2018
本文提出了一种新的卷积神经网络架构,该架构通过扩展残差网络的层数,明确利用非常深网络的集成表现,并使模型变宽而不是更深,从而显著提高了准确性。受多元残差网络的并行结构启发,本研究还探讨了一种模型并行技术,该技术使残差块的计算分布在处理器之间,计算复杂度提高了 15%。最后,我们证明了我们模型在 ImageNet 分类数据集上优于大多数现有模型的表现。
Sep, 2016