充分利用现有资源：在低数据条件下调整预训练的视觉语言模型

May, 2023

充分利用现有资源：在低数据条件下调整预训练的视觉语言模型

Making the Most of What You Have: Adapting Pre-trained Visual Language Models in the Low-data Regime

Chuhan Zhang, Antoine Miech, Jiajun Shen, Jean-Baptiste Alayrac, Pauline Luc

TL;DR研究表明，视觉语言模型是目前广泛使用的预训练模型，但在适应少量样本方面，深度学习模型存在不足。本文研究了面向生成视觉语言模型的现有适应方法，提出了自标记的重要性，并提出一种任务适应流水线，可显著提高各种视觉语言任务（如图像分类、视觉问答等）的性能。

Abstract

Large-scale visual language models are widely used as pre-trained models and then adapted for various downstream tasks. While humans are known to efficiently learn new tasks from a few examples, deep learning mod

visual language models task adaptation self-labelling low-data regime deep learning

发现论文，激发创造

低资源领域适应的多阶段预训练

本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法，在 IT 领域的三个任务中，采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。

Oct, 2020

如何将大型视觉语言模型专门化为数据稀缺的 VQA 任务？A：利用未标注图像进行自我训练！

本文介绍了一种自学习数据增强策略，可以在小规模的视觉问答数据集上优化大视觉语言模型，从而增强对对抗性搜索、反事实例子和重述的鲁棒性，提高领域泛化能力，并保留更多数字推理技能。

Jun, 2023

如何将预训练的视觉语言模型改编为仅文本输入模式？

为了找到最好的方法来将视觉和语言 (VL) 多模态预训练模型适应于仅文本输入，我们研究并比较了适应 VL 模型到文本输入的七种可能的方法。我们的评估结果表明，对于零样本文本 - only 任务，VL 模型需要小心适应，而对于非零样本任务，模型对适应方法不敏感。我们还发现，对于不同的模型，适应方法的表现各不相同，而单模态模型趋同于 VL 模型，提示当前的 VL 模型不一定从其多模态训练中获得更好的语言理解。

Sep, 2022

定位潜在更新用于微调视觉语言模型

提出一种轻量级的适配器方法，通过更新预测接近观察数据点的模型以加快更新速度，并保持经典微调方法外数据的正确性，以实现在小样本学习领域中，在训练过程中看得到和看不到的类别上结果均与或优于现有技术水平。

Dec, 2022

基于疾病信息的视觉 - 语言模型调整

通过在医学图像分析中引入疾病相关的上下文提示，利用预训练的视觉 - 语言模型（VLMs）的联合能力，提出了一种新的疾病原型学习框架，有效地提升了 VLMs 对新疾病概念的理解和性能，相较于现有方法有明显的提升。

May, 2024

视觉与语言预训练

本篇研究综述了当下 Vision-and-Language 领域内的预训练模型，并归纳总结了相关预训练技术、训练集以及下游任务。同时，文章还讨论了未来研究的多个方向。

Jul, 2022

VisualGPT：预训练语言模型数据有效适配图像字幕生成

本研究提出了 VisualGPT，一种数据高效的图像字幕模型，它利用了预先训练的语言模型中获得的语言知识，使用自重生编码器 - 解码器注意机制在少量领域训练数据上快速适应预训练的语言模型，并通过稀疏激活单元减少了零梯度的影响，我们在 MSCOCO 和 Conceptual Captions 数据集上进行 0.1％，0.5％和 1％的训练，结果表明，我们在 MS COCO 上的 CIDEr 得分最好的基线模型高达 10.8％，在 Conceptual Captions 上高达 5.4％，并在医学报告生成数据集 IU X-ray 上取得了最新的结果。

Feb, 2021

重新审视分类器：将视觉语言模型应用于视频识别

该研究重点研究了通过使用不同于传统方法的先前训练模型知识来改进视频分类的方法，简单而有效的调整模式在各种视频识别场景中达到了最先进的表现。

Jul, 2022

图像文本：学习可转移的多标签分类适配器

通过预先训练的视觉 - 语言模型，结合适当的调整和随机扰动方法构建了一个能够自动识别图像标签的全自动流水线，该方法在各种多标签分类任务中显示出优越性能。

Dec, 2023

不要停止预训练：将语言模型适应于领域和任务

本研究通过研究不同领域和任务的分类模型，验证了在特定领域和任务上进行二次预训练（领域自适应和任务自适应预训练）可以显著提高性能，同时也发现多阶段适应预训练在任务表现上取得了大幅提升。

Apr, 2020