AWT：通过增强，加权和传输进行视觉语言模型的转移

Jul, 2024

AWT：通过增强，加权和传输进行视觉语言模型的转移

AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation

Yuhan Zhu, Yuyang Ji, Zhiyu Zhao, Gangshan Wu, Limin Wang

TL;DR通过增强输入的多样化视觉角度与丰富的类别描述，利用预训练视觉-语言模型实现图像与语言的最优传输，提高视觉-语言模型的零样本学习与少样本学习能力。

Abstract

pre-trained vision-language models (VLMs) have shown impressive results in various visual classification tasks. However, we often fail to fully unleash their potential when adapting them for new concept understanding due to limited information on new classes. To address this limitation

发现论文，激发创造

视觉语言预训练模型：一项调查

本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功，着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略，并提出了未来三个方向的研究建议。

Apr, 2022

ELEVATER: 一种用于评估语言增强视觉模型的基准和工具包

本研究发展了 ELEVATER，作为第一个用于评估（预训练）语言增强视觉模型的基准和工具包，包括数据集、工具包和度量标准。ELEVATER是计算机视觉中的一个平台，并已公开发布。

Apr, 2022

重新审视分类器：将视觉语言模型应用于视频识别

该研究重点研究了通过使用不同于传统方法的先前训练模型知识来改进视频分类的方法，简单而有效的调整模式在各种视频识别场景中达到了最先进的表现。

Jul, 2022

EfficientVLM：通过知识蒸馏和模态自适应修剪实现快速和准确的视觉语言模型

本篇研究介绍了一种对于大型视觉-语言模型进行压缩的方法，该方法利用蒸馏和剪枝技术，通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的EfficientVLM模型仅含有9300万个参数，具有98.4％的性能表现，并在各种视觉-语言任务中取得了令人瞩目的结果。

Oct, 2022

GraphAdapter: 用双重知识图调整视觉语言模型

通过建立双重知识图，将文本和视觉语义/类别之间的关联性进行建模，利用适配器样式的调整策略，在少量数据条件下对视觉-语言模型进行调优，提高下游任务的分类器的效果。

Sep, 2023

提高视觉语言模型的适应性和泛化能力的有效传递学习

利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要；我们提出了一种自适应集成方法，根据迁移难度有效地结合了VLMs的通用知识和任务特定知识，该方法在广泛的基准测试中始终优于所有基准线，尤其是在未知任务上表现出了其有效性。

Nov, 2023

VMT-Adapter: 多任务强化学习的参数高效迁移学习

大规模预训练模型已在各种计算机视觉任务中取得了显著成果。然而，与其它单一任务的适应性方法相比，在多任务适应方面的研究有限，这些方法往往表现出次优的训练和推理效率。本文首先提出了一种全能视觉多任务适配器（VMT-Adapter），其训练和推理效率与任务数量近似为O(1)。具体而言，VMT-Adapter通过共享多个任务的知识来增强跨任务交互，并通过独立知识提取模块保留了任务特定的知识。此外，本文还提出了VMT-Adapter-Lite，通过学习下投影和上投影之间的共享参数来进一步减少可训练参数。对四个密集场景理解任务的大量实验证明了VMT-Adapter(-Lite)的优越性，相比于单一任务的全面微调，它们分别实现了3.96%（1.34%）的相对改进，并仅利用了预训练模型的约1%（0.36%）的可训练参数。

Dec, 2023

VL-GPT：用于视觉与语言理解与生成的生成式预训练Transformer模型

VL-GPT是一种同时感知和生成视觉和语言数据的变压器模型，通过采用直观的自回归目标，实现了图像和文本两种模态的统一预训练方法，从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后，VL-GPT在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。

Dec, 2023

大型视觉语言模型的少样本自适应研究

通过引入适应真实场景需求的新方法，我们综合评估了一个广泛的数据集和场景，发现其在实践中始终优于现有技术，同时作为更高效的替代方案。

Dec, 2023

条件下的原型修正提示学习

利用大规模的预先训练的视觉语言模型，通过高效的迁移学习方法解决基类过拟合问题，提出了一种条件原型纠正提示学习方法，有效地纠正了基类示例的偏差并增加了有限数据量，在少样本分类和从基类到新类的泛化任务中实现了最先进的性能。

Apr, 2024