Jul, 2024

DεpS: 延迟ε-收缩以加快全面训练

TL;DR通过推迟部分训练的全模型收缩和动态调整子网络学习率的方法(DEpS),提出了一个可扩展的训练方案,以降低卷积神经网络的训练成本并实现更好的知识蒸馏效果。DEpS 在准确性和成本方面在不同数据集上优于现有的一次性训练技术。