自适应大型视觉语言模型在视觉模态之间适用于边缘设备

Mar, 2024

自适应大型视觉语言模型在视觉模态之间适用于边缘设备

Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities

Kaiwen Cai, Zhekai Duan, Gaowen Liu, Charles Fleming, Chris Xiaoxuan Lu

TL;DR通过双模态知识蒸馏和量化感知对比学习，EdgeVL 框架实现了大型视觉语言模型在资源受限设备上的高效使用，无需手动标注，提高了在多种视觉模态下的开放词汇分类性能，同时在多个数据集上提升了 15.4% 的准确性，并在模型规模上缩小了 93 倍。

Abstract

Recent advancements in Vision-Language (VL) models have sparked interest in their deployment on edge devices, yet challenges in handling diverse visual modalities, manual annotation, and computational constraints remain. We introduce EdgeVL, a novel framework that bridges this gap by s

vision-language models edge devices dual-modality knowledge distillation quantization-aware contrastive learning compact models

发现论文，激发创造

提高视觉语言模型的适应性和泛化能力的有效传递学习

利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要；我们提出了一种自适应集成方法，根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识，该方法在广泛的基准测试中始终优于所有基准线，尤其是在未知任务上表现出了其有效性。

Nov, 2023

LiteVL：增强空间 - 时间建模的高效视频 - 语言学习

本文提出 LiteVL 模型，结合 BLIP 图像语言模型，通过使用动态时态缩放，给图像编码器添加时间注意力模块，并提出非参数池化机制，以自适应地重新加权文本条件下的细粒度视频嵌入，取得了良好的性能，即使没有进行任何视频 - 语言预训练。

Oct, 2022

Veagle: 多模态表征学习的进展

提出了一种名为 Veagle 的新方法，通过在现有模型中增强多模态能力，利用动态机制将编码的视觉信息直接投射到语言模型中，从而在视觉问题回答和图像理解等任务中表现出具有显著优势的 5-6% 的改进。

Jan, 2024

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

EfficientVLM：通过知识蒸馏和模态自适应修剪实现快速和准确的视觉语言模型

本篇研究介绍了一种对于大型视觉 - 语言模型进行压缩的方法，该方法利用蒸馏和剪枝技术，通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的 EfficientVLM 模型仅含有 9300 万个参数，具有 98.4％的性能表现，并在各种视觉 - 语言任务中取得了令人瞩目的结果。

Oct, 2022

MobileVLM: 移动设备上快速、可重现和强大的视觉语言助手

我们提出了 MobileVLM，这是一个专为移动设备设计的多模式视觉语言模型（MMVLM）。它集成了各种移动设备定向的架构设计和技术，包括一组从头训练的 1.4B 和 2.7B 参数规模的语言模型，以及使用 CLIP 风格预训练的多模式视觉模型，通过高效的投影实现跨模态交互。我们在几个典型的 VLM 基准测试上评估了 MobileVLM。与一些更大的模型相比，我们的模型表现出与之相当的性能。更重要的是，我们在高通骁龙 888 CPU 和 NVIDIA Jeston Orin GPU 上测量了推断速度，分别获得了 21.5 个 token 和 65.3 个 token 每秒的最新性能。我们的代码将在此 https URL 上提供。

Dec, 2023

通过专家混合适配器增强视觉语言模型的持续学习

提出了一种参数高效的持续学习框架，通过在视觉语言模型中动态扩展一个预训练的 CLIP 模型，采用专家混合（Mixture-of-Experts）适配器以应对新任务，并引入分布鉴别自动选择器（DDAS）以保留视觉语言模型的零样本识别能力，并通过各种实验验证，该方法在提升性能的同时减少了 60% 的参数训练负担。

Mar, 2024

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023

VLAB: 通过特征调整和混合增强视频语言预训练

本文提出了一种名为 VLAB 的新型视频 - 文本预训练方法，通过特征适应和融合扩展了 CLIP 的能力并构建统一的视频多模态模型，验证了其在视频文本检索、视频字幕生成和视频问答等高竞争任务中的有效性和多功能性。

May, 2023

从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.

Oct, 2023