BriefGPT.xyz
大模型
Ask
alpha
关键词
dimensionality reduction kd
搜索结果 - 1
RdimKD: 通过降维进行通用蒸馏范式
这篇研究提出了一种新的知识蒸馏范式,称为维度降低知识蒸馏(RdimKD),通过使用一个投影矩阵将大网络和小网络的特征图投影到低维子空间,并在训练过程中进行优化,既保证学生从老师获取有价值信息,又灵活适应学生的低容量实际情况。实证研究表明 R
→
PDF
7 months ago
Prev
Next