快速准确的模型缩放
本文对深度神经网络在计算机视觉领域中的重要应用指标进行全面分析,发现能耗与批次大小和架构无关,准确度和推断时间在双曲线关系中,能源约束是最大可实现准确度和模型复杂度的上限,操作次数是推断时间的可靠估计。
May, 2016
本文采用实证方法针对机器翻译、语言建模、图像处理和语音识别等4个机器学习领域的数据,研究训练集大小、模型规模与推广误差之间的关系,结果表明推广误差遵循幂定律缩放,且模型改进只改变误差而不影响幂指数。此外,模型大小随数据规模的增大缩小,这些研究对于深度学习的研究、实践和系统设计具有重要意义。
Dec, 2017
本文系统研究了模型的缩放并提出了一种基于网络深度、宽度和分辨率的平衡方法,进而使用神经架构搜索设计了一种新的基线网络并扩展成一系列模型,称为EfficientNets,这些EfficientNets在多项测试中取得了更好的准确性和效率,包括在ImageNet数据集上达到了84.3%的top-1准确率,在成为当前最佳的ConvNet的推理速度比其快6.1倍、参数更少的情况下,这是一个领先的结果。
May, 2019
该研究提出了一种理论,解释并连接训练数据集大小和网络参数数量与已训练神经网络的测试损失之间的精确定义的幂律关系,并通过说明数据流形和一些核的频谱之间的等效性来解释了分辨率有限的缩放行为。
Feb, 2021
本文重新研究了经典的ResNet模型,并重点讨论了模型架构、训练方法和扩展策略对模型性能的影响。作者发现,训练方法和扩展策略可能比模型架构的变化更重要,同时作者提出了两种新的扩展策略,并设计了一系列ResNet架构。实验结果表明,这些简单修改的ResNet模型比EfficientNet更快,且在ImageNet上达到了类似的准确性,同时在半监督学习和下游任务转移学习上也有显著提升。
Mar, 2021
本文研究通过增加训练集大小来提高深度卷积神经网络图像处理的性能,发现在训练样本数较少时,模型表现随训练样本数增加而迅速提升,但在一定程度上达到饱和,并提出理论解释。
Sep, 2022
通过提出局部卷积(PConv)和一种新的神经网络FasterNet,实现了在广泛设备上获得比其他网络更快的运行速度,而不会牺牲各种视觉任务的准确性。
Mar, 2023
基于第二阶损失景观信息的自动缩放方法,以灵活适应视觉变换器中的跳跃连接;在DeiT-S与ImageNet100上广泛评估,相较于传统缩放,准确率提高2.5%,参数效率提高10%;缩放网络在从头训练小规模数据集时表现出卓越性能,是视觉变换器的首个完整缩放机制,实现高效模型缩放的一步。
Feb, 2024
本研究旨在解决神经网络规模与数据量对性能提升影响的缺口。提出了一种新颖的理论框架,展示模型规模、训练时间和数据量三者如何相互影响,形成规模时间等价性。这一发现不仅挑战了目前的小模型短训练时间的实践,还为评估和优化大型网络性能提供了预测方法,具有重要的实际应用价值。
Sep, 2024