VLM-KD：基于 VLM 的长尾视觉识别知识蒸馏

Aug, 2024

VLM-KD：基于 VLM 的长尾视觉识别知识蒸馏

VLM-KD: Knowledge Distillation from VLM for Long-Tail Visual Recognition

Zaiwei Zhang, Gregory P. Meyer, Zhichao Lu, Ashish Shrivastava, Avinash Ravichandran...

TL;DR本研究解决了视觉识别中知识蒸馏在长尾分类问题上的不足，通过采用现成的视觉语言模型（VLM）生成新的文本监督来改进传统的视觉教师模型。VLM-KD 框架展现了其在多个评估数据集上的优越性，超越了多种最新的长尾视觉分类器，标志着在视觉编码器中应用文本监督蒸馏的首创。

Abstract

For Visual Recognition, Knowledge Distillation typically involves transferring knowledge from a large, well-trained teacher model to a smaller student model. In this paper, we introduce an effective method to dis

发现论文，激发创造

知识蒸馏和师生学习在视觉智能中的应用：评述与新观点

本文讨论了知识蒸馏和S-T学习，提供了对知识蒸馏的解释以及该方法的最新进展、技术细节和视觉应用状况的全面调查，并分析了现有方法的潜力和挑战，展望了知识蒸馏和S-T学习的未来方向。

Apr, 2020

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

VidLanKD: 通过视频提炼的知识转移来改进语言理解

本文提出了一种名为VidLanKD的视频-语言知识蒸馏方法，通过在视频文本数据集上训练一个多模教师模型，再将其知识转移到一个文本数据集上的学生语言模型，以达到优化语言理解的目的。实验结果表明，VidLanKD模型在多个语言理解任务上均取得了较好的效果。

Jul, 2021

KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练

本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架，其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率，并在广泛的视觉和语言任务上取得了竞争性的表现。

Sep, 2021

知识蒸馏作为高效预训练：更快的收敛、更高的数据效率和更好的可迁移性

研究了一种名为Knowledge Distillation as Efficient Pre-training (KDEP)的替代预训练策略，旨在通过非参数特征维度对齐的基于特征的KD方法将先前已经训练好的模型的学习特征表示有效地转移到新的学生模型，实现在不需要大规模数据和较少预训练时间的情况下在三个下游任务和九个下游数据集中实现与有监督预训练的同等效果。

Mar, 2022

EfficientVLM：通过知识蒸馏和模态自适应修剪实现快速和准确的视觉语言模型

本篇研究介绍了一种对于大型视觉-语言模型进行压缩的方法，该方法利用蒸馏和剪枝技术，通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的EfficientVLM模型仅含有9300万个参数，具有98.4％的性能表现，并在各种视觉-语言任务中取得了令人瞩目的结果。

Oct, 2022

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

自监督视觉表示学习的多模式在线知识蒸馏

本文提出了一种多模在线知识蒸馏方法来提高自监督视觉表征学习，通过自蒸馏和交叉蒸馏两种蒸馏模式，实现了不同模型之间的知识交互，并通过跨注意力特征搜索策略增强了不同模型之间的语义特征对齐，实现了两个异构模型相互吸收知识以提高其表征学习性能。实验证明，这种方法在不同的骨干网络和数据集上都具有较好的性能表现，并且优于现有的 SSL-KD 方法。

Apr, 2023

从CNN提炼高效的视觉Transformer用于语义分割

我们提出了一种CNN到ViT知识蒸馏框架，包括视觉语言特征蒸馏模块(VLFD)和像素级解耦蒸馏模块(PDD)，实验证明我们的方法在三个语义分割基准数据集上的mIoU增量是最先进知识蒸馏方法的200%以上。

Oct, 2023

计算机视觉中知识蒸馏的综述

知识蒸馏是一种将复杂模型压缩为更小更简单的技术，本论文综述了知识蒸馏的原理、技术和在计算机视觉领域的应用，并专注于探讨知识蒸馏的好处以及提高其有效性所需克服的问题。

Apr, 2024