视觉程序蒸馏：将工具和编程推理融入视觉 - 语言模型

Dec, 2023

视觉程序蒸馏：将工具和编程推理融入视觉 - 语言模型

Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models

Yushi Hu, Otilia Stretcu, Chun-Ta Lu, Krishnamurthy Viswanathan, Kenji Hata...

TL;DR通过 Visual Program Distillation (VPD) 框架将大型语言模型 (LLM) 的理解能力提炼到一个具备单次前向传递解决复杂视觉任务的视觉 - 语言模型 (VLM) 上，从而改善计数、理解空间关系和组合推理等能力，并在真实世界的应用（有限数据情况下的内容管理）中得到验证。

Abstract

Solving complex visual tasks such as "Who invented the musical instrument on the right?" involves a composition of skills: understanding space, recognizing instruments, and also retrieving prior knowledge. Recent work shows promise by decomposing such tasks using a →

complex visual tasks large language model visual program distillation vision-language model content moderation

发现论文，激发创造

从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.

Oct, 2023

VisualProg Distiller: 非可微视觉编程框架的微调学习

通过视觉编程（VisualProg）的过程精馏，我们提出了一种方法来优化每个 VisualProg 子模块的性能，从而提高整体任务性能，并在大规模数据集上进行了广泛而全面的实验评估。

Sep, 2023

DLIP：语言 - 图像预训练的提炼

通过 DLIP（一个简单有效的 Distilling Language-Image Pre-training 框架）这篇论文，我们从不同维度对模型蒸馏进行了深入研究和分析，包括不同模块的架构特征和不同模态的信息传递，旨在研究如何蒸馏一个轻量的 VLP 模型，并通过实验证明了 DLIP 在各种跨模态任务上取得了最先进的准确性 / 效率平衡，如图像 - 文本检索、图像描述和视觉问答等。

Aug, 2023

VideoDistill: 视频问答的语言感知视觉蒸馏

通过受到人类认知和学习模式的启发，我们提出了一种视频问题回答（VideoQA）的框架 VideoDistill，该框架在视觉感知和答案生成过程中具有语言感知（即以目标驱动为特征）的行为，通过思考、观察和回答的方式生成与问题相关的显著图像。

Apr, 2024

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

PaD: 通过程序辅助精馏专门针对推理的大型模型

提出了 Program-aided Distillation（PaD）算法，该算法使用程序辅助推理强化可特化的模型，并通过自动化错误检查帮助它们克服错误的推理步骤，实验证明 PaD 具有比 LLMs 更高的训练效率，并能显著提高推理能力。

May, 2023

KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练

本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架，其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率，并在广泛的视觉和语言任务上取得了竞争性的表现。

Sep, 2021

压缩具有外部分布泛化能力的大型视觉语言模型

大规模视觉 - 语言模型的蒸馏是一个具有潜力的方向，本文研究了利用小型或中型数据集将大型视觉 - 语言模型的视觉表示转化为轻量级学生模型，提出了两个原则来增强学生模型在开放词汇分布下的泛化能力，并在开放词汇分布下的分类任务中取得了显著改进。

Jul, 2023

EfficientVLM：通过知识蒸馏和模态自适应修剪实现快速和准确的视觉语言模型

本篇研究介绍了一种对于大型视觉 - 语言模型进行压缩的方法，该方法利用蒸馏和剪枝技术，通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的 EfficientVLM 模型仅含有 9300 万个参数，具有 98.4％的性能表现，并在各种视觉 - 语言任务中取得了令人瞩目的结果。

Oct, 2022

PartDistill: 视觉语言模型蒸馏下的三维形状部分分割

该研究提出了一个跨模态蒸馏框架 PartDistill，将二维视觉 - 语言模型的知识转移给三维形状的部分分割，通过解决三个主要挑战（二维投影中不可见或未检测区域的三维分割缺失、VLM 的二维预测不准确和不一致、不同三维形状之间的知识积累不足），PartDistill 在该任务中取得了显著的进展。通过在框架内进行正向和反向的蒸馏，PartDistill 能够提高最终的三维部分分割结果，并且可以利用生成模型生成用于蒸馏的知识源。在广泛使用的 ShapeNetPart 和 PartE 数据集上进行的大量实验证明，PartDistill 相比现有方法在 mIoU 分数上显著提升，分别高出 15% 和 12%。

Dec, 2023