BriefGPT.xyz
Ask
alpha
关键词
pre-training time
搜索结果 - 1
CVPR
知识蒸馏作为高效预训练:更快的收敛、更高的数据效率和更好的可迁移性
研究了一种名为 Knowledge Distillation as Efficient Pre-training (KDEP) 的替代预训练策略,旨在通过非参数特征维度对齐的基于特征的 KD 方法将先前已经训练好的模型的学习特征表示有效地转
→
PDF
2 years ago
Prev
Next