BriefGPT.xyz
大模型
Ask
alpha
关键词
snapshot distillation
搜索结果 - 1
快照蒸馏:一代中的教师 - 学生优化
本研究提出了快照蒸馏 (SD) 框架,它将深度神经网络的教师 - 学生优化方法应用于一个生成周期内,通过循环学习率策略以及利用同一周期内早期时期的信息提取,避免了时间复杂度的增大,同时在 CIFAR100 和 ILSVRC2012 等基准测
→
PDF
6 years ago
Prev
Next