视觉程序蒸馏:将工具和编程推理融入视觉 - 语言模型
Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.
Oct, 2023
通过视觉编程(VisualProg)的过程精馏,我们提出了一种方法来优化每个 VisualProg 子模块的性能,从而提高整体任务性能,并在大规模数据集上进行了广泛而全面的实验评估。
Sep, 2023
通过 DLIP(一个简单有效的 Distilling Language-Image Pre-training 框架)这篇论文,我们从不同维度对模型蒸馏进行了深入研究和分析,包括不同模块的架构特征和不同模态的信息传递,旨在研究如何蒸馏一个轻量的 VLP 模型,并通过实验证明了 DLIP 在各种跨模态任务上取得了最先进的准确性 / 效率平衡,如图像 - 文本检索、图像描述和视觉问答等。
Aug, 2023
通过受到人类认知和学习模式的启发,我们提出了一种视频问题回答(VideoQA)的框架 VideoDistill,该框架在视觉感知和答案生成过程中具有语言感知(即以目标驱动为特征)的行为,通过思考、观察和回答的方式生成与问题相关的显著图像。
Apr, 2024
通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型,使其具有多模态生成能力,实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。
Mar, 2022
提出了 Program-aided Distillation(PaD)算法,该算法使用程序辅助推理强化可特化的模型,并通过自动化错误检查帮助它们克服错误的推理步骤,实验证明 PaD 具有比 LLMs 更高的训练效率,并能显著提高推理能力。
May, 2023
本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架,其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率,并在广泛的视觉和语言任务上取得了竞争性的表现。
Sep, 2021
大规模视觉 - 语言模型的蒸馏是一个具有潜力的方向,本文研究了利用小型或中型数据集将大型视觉 - 语言模型的视觉表示转化为轻量级学生模型,提出了两个原则来增强学生模型在开放词汇分布下的泛化能力,并在开放词汇分布下的分类任务中取得了显著改进。
Jul, 2023
本篇研究介绍了一种对于大型视觉 - 语言模型进行压缩的方法,该方法利用蒸馏和剪枝技术,通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的 EfficientVLM 模型仅含有 9300 万个参数,具有 98.4%的性能表现,并在各种视觉 - 语言任务中取得了令人瞩目的结果。
Oct, 2022
该研究提出了一个跨模态蒸馏框架 PartDistill,将二维视觉 - 语言模型的知识转移给三维形状的部分分割,通过解决三个主要挑战(二维投影中不可见或未检测区域的三维分割缺失、VLM 的二维预测不准确和不一致、不同三维形状之间的知识积累不足),PartDistill 在该任务中取得了显著的进展。通过在框架内进行正向和反向的蒸馏,PartDistill 能够提高最终的三维部分分割结果,并且可以利用生成模型生成用于蒸馏的知识源。在广泛使用的 ShapeNetPart 和 PartE 数据集上进行的大量实验证明,PartDistill 相比现有方法在 mIoU 分数上显著提升,分别高出 15% 和 12%。
Dec, 2023