从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Oct, 2023

从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Distilling from Vision-Language Models for Improved OOD Generalization in Vision Tasks

Sravanti Addepalli, Ashish Ramayee Asokan, Lakshay Sharma, R. Venkatesh Babu

TL;DRVision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.

Abstract

vision-language models (VLMs) such as clip are trained on large amounts of image-text pairs, resulting in remarkable generalization across several data distributions. The prohibitively expensive training and data

vision-language models clip vendor-client paradigm distillation vision-language to vision-align, distill, predict (vl2v-adip)

发现论文，激发创造

压缩具有外部分布泛化能力的大型视觉语言模型

大规模视觉 - 语言模型的蒸馏是一个具有潜力的方向，本文研究了利用小型或中型数据集将大型视觉 - 语言模型的视觉表示转化为轻量级学生模型，提出了两个原则来增强学生模型在开放词汇分布下的泛化能力，并在开放词汇分布下的分类任务中取得了显著改进。

Jul, 2023

DLIP：语言 - 图像预训练的提炼

通过 DLIP（一个简单有效的 Distilling Language-Image Pre-training 框架）这篇论文，我们从不同维度对模型蒸馏进行了深入研究和分析，包括不同模块的架构特征和不同模态的信息传递，旨在研究如何蒸馏一个轻量的 VLP 模型，并通过实验证明了 DLIP 在各种跨模态任务上取得了最先进的准确性 / 效率平衡，如图像 - 文本检索、图像描述和视觉问答等。

Aug, 2023

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

选择与概括：选择性双教师知识迁移用于视觉语言模型的持续学习

大规模视觉语言模型（VLMs）展示了对未见域数据具有强大的零样本泛化能力。然而，适应预训练的 VLMs 并执行一系列下游任务时，它们容易忘记以前学到的知识并降低其零样本分类能力。为解决这个问题，我们提出了一种独特的选择性双教师知识迁移框架，利用最新的精细调整和原始的预训练 VLMs 作为双教师来保留以前学到的知识和零样本能力。通过仅访问未标记的参考数据集，我们提出的框架通过测量双教师 VLMs 的特征差异来执行选择性知识蒸馏机制。因此，我们的选择性双教师知识蒸馏将缓解以前学到的知识的灾难性遗忘，同时保留预训练 VLMs 的零样本能力。通过对基准数据集进行大量实验，我们证明了我们的提出的框架对于防止灾难性遗忘和零样本退化的最新持续学习方法是有利的。

Mar, 2024

视觉程序蒸馏：将工具和编程推理融入视觉 - 语言模型

通过 Visual Program Distillation (VPD) 框架将大型语言模型 (LLM) 的理解能力提炼到一个具备单次前向传递解决复杂视觉任务的视觉 - 语言模型 (VLM) 上，从而改善计数、理解空间关系和组合推理等能力，并在真实世界的应用（有限数据情况下的内容管理）中得到验证。

Dec, 2023

EfficientVLM：通过知识蒸馏和模态自适应修剪实现快速和准确的视觉语言模型

本篇研究介绍了一种对于大型视觉 - 语言模型进行压缩的方法，该方法利用蒸馏和剪枝技术，通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的 EfficientVLM 模型仅含有 9300 万个参数，具有 98.4％的性能表现，并在各种视觉 - 语言任务中取得了令人瞩目的结果。

Oct, 2022

提高视觉语言模型的适应性和泛化能力的有效传递学习

利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要；我们提出了一种自适应集成方法，根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识，该方法在广泛的基准测试中始终优于所有基准线，尤其是在未知任务上表现出了其有效性。

Nov, 2023

KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练

本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架，其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率，并在广泛的视觉和语言任务上取得了竞争性的表现。

Sep, 2021

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

将互联网规模的视觉 - 语言模型化为具体智能体

本文提出了一种利用预训练的视觉语言模型（VLMs）来监督具有目的地行动的体验型智能体从而让其学会与不同类别的对象交互的新型方式。通过少量提示和后见之明体验回放（HER）技术，我们可以使体验型智能体学习抽象类别的成员资格以及与特定任务相关的语境，在利用因特网规模的 VLMs 的通用语言基础的同时完成语言建模。

Jan, 2023