ICLRFeb, 2024

超越均匀缩放:探索神经结构中的深度异质性

TL;DR基于第二阶损失景观信息的自动缩放方法,以灵活适应视觉变换器中的跳跃连接;在 DeiT-S 与 ImageNet100 上广泛评估,相较于传统缩放,准确率提高 2.5%,参数效率提高 10%;缩放网络在从头训练小规模数据集时表现出卓越性能,是视觉变换器的首个完整缩放机制,实现高效模型缩放的一步。