本文讨论了知识蒸馏和S-T学习,提供了对知识蒸馏的解释以及该方法的最新进展、技术细节和视觉应用状况的全面调查,并分析了现有方法的潜力和挑战,展望了知识蒸馏和S-T学习的未来方向。
Apr, 2020
本文提出 VL distillation,使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型,以提高图像字幕生成和视觉问答任务中的性能。
Apr, 2021
本文提出了一种名为VidLanKD的视频-语言知识蒸馏方法,通过在视频文本数据集上训练一个多模教师模型,再将其知识转移到一个文本数据集上的学生语言模型,以达到优化语言理解的目的。实验结果表明,VidLanKD模型在多个语言理解任务上均取得了较好的效果。
Jul, 2021
本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架,其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率,并在广泛的视觉和语言任务上取得了竞争性的表现。
Sep, 2021
研究了一种名为Knowledge Distillation as Efficient Pre-training (KDEP)的替代预训练策略,旨在通过非参数特征维度对齐的基于特征的KD方法将先前已经训练好的模型的学习特征表示有效地转移到新的学生模型,实现在不需要大规模数据和较少预训练时间的情况下在三个下游任务和九个下游数据集中实现与有监督预训练的同等效果。
Mar, 2022
本篇研究介绍了一种对于大型视觉-语言模型进行压缩的方法,该方法利用蒸馏和剪枝技术,通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的EfficientVLM模型仅含有9300万个参数,具有98.4%的性能表现,并在各种视觉-语言任务中取得了令人瞩目的结果。
Oct, 2022
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
Apr, 2023
本文提出了一种多模在线知识蒸馏方法来提高自监督视觉表征学习,通过自蒸馏和交叉蒸馏两种蒸馏模式,实现了不同模型之间的知识交互,并通过跨注意力特征搜索策略增强了不同模型之间的语义特征对齐,实现了两个异构模型相互吸收知识以提高其表征学习性能。实验证明,这种方法在不同的骨干网络和数据集上都具有较好的性能表现,并且优于现有的 SSL-KD 方法。
我们提出了一种CNN到ViT知识蒸馏框架,包括视觉语言特征蒸馏模块(VLFD)和像素级解耦蒸馏模块(PDD),实验证明我们的方法在三个语义分割基准数据集上的mIoU增量是最先进知识蒸馏方法的200%以上。
Oct, 2023
知识蒸馏是一种将复杂模型压缩为更小更简单的技术,本论文综述了知识蒸馏的原理、技术和在计算机视觉领域的应用,并专注于探讨知识蒸馏的好处以及提高其有效性所需克服的问题。
Apr, 2024