ICLRFeb, 2024
超越均匀缩放:探索神经结构中的深度异质性
Beyond Uniform Scaling: Exploring Depth Heterogeneity in Neural Architectures
Akash Guna R.T, Arnav Chavan, Deepak Gupta
TL;DR基于第二阶损失景观信息的自动缩放方法,以灵活适应视觉变换器中的跳跃连接;在 DeiT-S 与 ImageNet100 上广泛评估,相较于传统缩放,准确率提高 2.5%,参数效率提高 10%;缩放网络在从头训练小规模数据集时表现出卓越性能,是视觉变换器的首个完整缩放机制,实现高效模型缩放的一步。