如何将大型视觉语言模型专门化为数据稀缺的 VQA 任务？A：利用未标注图像进行自我训练！

CVPRJun, 2023

如何将大型视觉语言模型专门化为数据稀缺的 VQA 任务？A：利用未标注图像进行自我训练！

Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images!

Zaid Khan, Vijay Kumar BG, Samuel Schulter, Xiang Yu, Yun Fu...

TL;DR本文介绍了一种自学习数据增强策略，可以在小规模的视觉问答数据集上优化大视觉语言模型，从而增强对对抗性搜索、反事实例子和重述的鲁棒性，提高领域泛化能力，并保留更多数字推理技能。

Abstract

Finetuning a large vision language model (VLM) on a target dataset after large scale pretraining is a dominant paradigm in visual question answering (VQA). Datasets for specialized tasks such as knowledge-based V

visual question answering self-taught data augmentation large vision language model small-scale vqa datasets domain generalization

发现论文，激发创造

SQ-LLaVA: 大规模视觉语言助手的自问自答

近期视觉语言模型的进展在视觉指导调整后，在视觉语言任务中展现了显著的泛化能力。这篇论文通过利用视觉指导数据中被忽视的上下文信息，训练模型进行自我监督学习以提问高质量问题，引入了称为 SQ-LLaVA 的新框架。SQ-LLaVA 在分析视觉线索和先前的语言知识时表现出高水准的泛化视觉理解能力，与传统的视觉指导调整方法相比，将 SQ-LLaVA 在更高质量的指导数据上进行微调可以持续提高性能，突显了自问技术在不同语境下实现更深入和细腻的视觉内容理解能力。

Mar, 2024

医学视觉问答的自监督视觉语言预训练

本文介绍了一种自我监督方法 - 对遮蔽图像建模、遮蔽语言建模、图像文本匹配和图像文本对齐进行对比学习的 M2I2 方法，应用于医学图像字幕数据集的预训练，并对下游医学 VQA 任务进行微调。该方法在三个公共医学 VQA 数据集上实现了最先进的性能。

Nov, 2022

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

无监督的问答模型自适应

通过无监督的大语言模型适应，研究论文探索了在不同目标领域中提供正确答案的问题回答，并研究了输入标记替换等方法来部分缓解中间和末尾信息获取的困难。

Feb, 2024

充分利用现有资源：在低数据条件下调整预训练的视觉语言模型

研究表明，视觉语言模型是目前广泛使用的预训练模型，但在适应少量样本方面，深度学习模型存在不足。本文研究了面向生成视觉语言模型的现有适应方法，提出了自标记的重要性，并提出一种任务适应流水线，可显著提高各种视觉语言任务（如图像分类、视觉问答等）的性能。

May, 2023

通过自监督学习克服语言先验的视觉问答

本研究介绍了一种自监督学习框架来解决视觉问答模型中固有数据偏差问题。我们利用自动生成的标签数据来平衡数据偏差，提出一种自监督辅助任务来减少语言先验的影响，从而提高 VQA 模型的准确性，无需引入额外的可视化注释。实验结果表明，我们的方法在常用基准 VQA-CP v2 上将整体准确性从 49.50％提高到 57.59％，可以将基于注释的方法的性能提高 16％，而无需使用外部注释。

Dec, 2020

无需进一步训练的预训练基础模型应对 VQA

通过结合预训练大型语言模型和其他基础模型，本研究探索了一种无需进一步训练即可解决视觉问答问题的方法，并对不同的解码策略在 VQAv2 数据集上进行了性能评估。

Sep, 2023

MISS：一个用于医学视觉问答的生成预训练和微调方法

本文提出了一种基于多任务自监督学习的大规模医学 VQA 任务框架（MISS），将医学 VQA 作为生成任务，并通过多任务学习对齐图像 - 文本特征；此外，我们通过使用大语言模型（LLMs），在单模态图像数据集上扩展单一模态图像特征空间，使得传统医学视觉领域任务数据能够应用于 VLP，实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式 VQA 模型的优势。

Jan, 2024

VQA 训练集是用于生成少样本汇集的自对弈环境

大型语言模型和大型视觉模型越来越能够解决组合推理任务，通过突破视觉问题回答基准测试的方法来衡量。然而，现有的解决方案通常涉及大规模预训练和微调数据集的精心构建，这可能代价高昂。本研究提出了一种技术，可以直接利用现有的训练集来构建以任务度量为奖励的计算环境。通过这种方式，我们通过集成外部信号来增强训练集。我们的实验证明了 Gemini 是如何学习使用自身或其他更小且专门的模型来迭代改善训练集上的性能的。我们的方法成功地推广并改善了对图表、信息图和文档视觉问答数据集的零样本表现。

May, 2024

定向领域微调：为特定训练任务定制分开的模态

通过使用 LORA 方法，我们提出了使用特定领域的信息数据集进行模型参数微调的方法，我们的研究旨在提高 Video-LLaVA 模型在烹饪视频中生成特定食材列表和详细指导的能力。

Jun, 2024