知识蒸馏的视觉语言模型压缩
本研究引入一个新的预可训练的通用视觉语言表示方法——Visual-Linguistic BERT,它采用了简单而强大的Transformer模型作为骨干网络,并将视觉和语言嵌入特征扩展为输入。通过在大规模的Conceptual Captions数据集上进行文本预训练,VL-BERT可以适配大多数视觉语言下游任务,并在可视化常识推理、视觉问答、指称理解等下游任务中取得了不错的效果。
Aug, 2019
本文提出了一种名为VidLanKD的视频-语言知识蒸馏方法,通过在视频文本数据集上训练一个多模教师模型,再将其知识转移到一个文本数据集上的学生语言模型,以达到优化语言理解的目的。实验结果表明,VidLanKD模型在多个语言理解任务上均取得了较好的效果。
Jul, 2021
提出一种基于知识蒸馏方法的英语语言-视觉模型拓展到同等效果的多语种和混合编码模型的方法,其使用多个中间层来逐步提取知识,同时在11种不同语言设置下创建大规模的多语种和混合编码的VQA数据集。
Sep, 2021
本文提出了一种新的语言表示学习的知识蒸馏方法,通过单词关系和层变换关系传递上下文知识,无需限制教师和学生的架构变化,验证了该方法在语言理解任务的各种架构和DynaBERT等自适应尺寸剪枝方法的挑战性基准上的有效性。
Sep, 2021
本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架,其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率,并在广泛的视觉和语言任务上取得了竞争性的表现。
Sep, 2021
提出了一种跨模态关注蒸馏框架来训练双编码器模型,以用于视觉语言理解任务,如视觉推理和视觉问答,并证明使用这种框架可以在保持比融合编码器模型更快的推理速度的同时实现竞争性的性能表现。
Dec, 2021
通过 DLIP(一个简单有效的Distilling Language-Image Pre-training框架)这篇论文,我们从不同维度对模型蒸馏进行了深入研究和分析,包括不同模块的架构特征和不同模态的信息传递,旨在研究如何蒸馏一个轻量的VLP模型,并通过实验证明了DLIP在各种跨模态任务上取得了最先进的准确性/效率平衡,如图像-文本检索、图像描述和视觉问答等。
Aug, 2023
我们提出了一种CNN到ViT知识蒸馏框架,包括视觉语言特征蒸馏模块(VLFD)和像素级解耦蒸馏模块(PDD),实验证明我们的方法在三个语义分割基准数据集上的mIoU增量是最先进知识蒸馏方法的200%以上。
Oct, 2023
VL-GPT是一种同时感知和生成视觉和语言数据的变压器模型,通过采用直观的自回归目标,实现了图像和文本两种模态的统一预训练方法,从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后,VL-GPT在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。
Dec, 2023
本研究解决了视觉识别中知识蒸馏在长尾分类问题上的不足,通过采用现成的视觉语言模型(VLM)生成新的文本监督来改进传统的视觉教师模型。VLM-KD 框架展现了其在多个评估数据集上的优越性,超越了多种最新的长尾视觉分类器,标志着在视觉编码器中应用文本监督蒸馏的首创。
Aug, 2024