Apr, 2024

CLIP-Embed-KD: 以嵌入向量作为教师的计算高效知识蒸馏

TL;DR通过利用嵌入作为教师,我们扩展了 CLIP 用于高效进行知识蒸馏,初步结果表明,使用嵌入进行基于 CLIP 的知识蒸馏可以在使用少至 9 倍内存和 8 倍训练时间的情况下优于完整规模的知识蒸馏。