加速图像分类器的小伙伴
轻量级视觉 Transformer(ViT)可以通过预训练和最小的图像缩放,实现优于 ResNet 等卷积神经网络在小数据集和小图像分辨率上的性能,而不需要显著地增大图像。
Feb, 2024
本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合,在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量,在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3%的准确度,且没有精度降低。
Nov, 2018
通过多尺度较小模型的预训练与冻结,我们展示了其在多个图像尺度上能够超越较大的视觉模型,并证明了通过 S$^2$ 方法进行预训练可以与较大模型具有相当的学习能力。
Mar, 2024
本篇论文主要研究了如何利用适当分解卷积和激进的正则化等方法,使卷积神经网络计算效率最大化,并以 ILSVRC2012 分类挑战作为基准,报告了使用少于 2500 万参数的 5 亿乘加运算成本的网络,评估单帧评估的 top-1 误差 21.2%和 top-5 误差 5.6%的显著成果。
Dec, 2015
本文研究通过增加训练集大小来提高深度卷积神经网络图像处理的性能,发现在训练样本数较少时,模型表现随训练样本数增加而迅速提升,但在一定程度上达到饱和,并提出理论解释。
Sep, 2022
本文探讨了在 petaflop 级超级计算机上训练 ResNet-50 的挑战和新解决方案,最终展示了高达 90%的扩展效率和 28 分钟的训练时间。同时介绍了 Collapsed Ensemble (CE) 技术,使得在相同的固定训练预算下,使用未修改的 ResNet-50 拓扑结构可以获得高达 77.5%的准确率,类似于 ResNet-152。
Nov, 2017
通过对缩放去噪网络骨干和训练集的广泛割离实验,本研究探讨了扩大规模的扩散式文本到图像(T2I)模型的特性,发现在模型扩展方面,跨向量关注的位置和数量对现有 UNet 设计的性能具有差异性,增加 Transformer 模块对于提高文本和图像的对齐比增加通道数量更加参数有效。在数据扩展方面,我们发现训练集的质量和多样性比简单的数据集大小更重要,增加标题密度和多样性可以提高文本和图像的对齐性能和学习效率。最后,我们提供了预测文本和图像对齐性能的缩放函数,函数依赖于模型规模、计算和数据集大小。
Apr, 2024
本文介绍了一种被称为 AdaScale 的新方法,该方法在视频对象检测方面提供了更好的准确性和速度,并展示了 - imagenet VID 和 mini YouTube - 边界框数据集上的结果。
Feb, 2019
如果同时扩大数据规模、模型大小和图像分辨率,通过自监督学习可以实现人类级的视觉目标识别能力,而且使用基于掩码自编码器的高效自监督学习算法,可以在低成本的学术预算下进行扩展实验。
Aug, 2023