InstructBLIP：通过指导微调实现通用的视觉 - 语言模型

May, 2023

InstructBLIP：通过指导微调实现通用的视觉 - 语言模型

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao...

TL;DR本研究系统全面地研究了基于预训练系统的 BLIP-2 视觉语言模型的指导调整方法。通过构建 InstructBLIP 模型和使用指导语音特征提取，该模型在 13 个测试集上全面超越 BLIP-2 和更大的 Flamingo 模型，在单个下游任务的微调中获得了最先进的性能。

Abstract

General-purpose language models that can solve various language-domain tasks have emerged driven by the pre-training and instruction-tuning pipeline. However, building general-purpose vision-language models is challenging due to the increased task discrepancy introduced by the addition

vision-language models instruction tuning blip-2 models zero-shot evaluation instruction-aware visual feature extraction

发现论文，激发创造

视觉语言指导调整：综述与分析

通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾，我们总结出高质量图像语言调整数据的特点，构建了完整的数据收集、指令生成和质量控制模块的构建流水线，并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调整，并通过相应的度量指标进行了大量实验，以论证本文提出的构建原则的合理性。

Nov, 2023

BLIP: 为实现统一的视觉语言理解与生成，引入语言 - 图像引导预训练

本文提出了 BLIP 作为新的 VLP 框架，通过引入 captioner 生成合成字幕，并使用 filter 删除噪音数据，能灵活地传输视觉语言理解和生成任务，获得了在一系列视觉语言任务中最先进的结果，同时在零样本任务中也表现出极强的泛化能力。

Jan, 2022

精调语言模型是零 - shot 学习器

通过对自然语言指令模板中的 60 个自然语言处理任务进行调整，我们将一个 137B 预训练语言模型调整为 FLAN 并在未看见的任务数据上进行评估，结果表明，通过指令调整，可以大大改善它在未看见任务上的性能并在 20 个任务上超越了 175B GPT-3 的零样本性能。

Sep, 2021

视觉指导调整中基于人工标注任务的扩展

通过构建最具多样性的 Vision-Flan 数据集和两阶段指导调优框架，本研究解决了现有 VLM 框架中的任务多样性和注释错误的挑战，并在广泛的多模态评估基准中取得了最新的最佳性能。

Feb, 2024

MultiInstruct: 通过指令调整提高多模态零样本学习

本研究提出了 MultiInstruct，这是第一个多模态指令调优基准数据集，旨在设计多个特定的任务和多个专家编写的指令，使用已存在的开源数据集和多个迁移学习策略来优化 OFM 模型的强零示性能，并且探索了一个新的评估指标：敏感性。

Dec, 2022

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

评估语言模型的零样本鲁棒性

本研究提出了一种简单的方法来提高指导微调模型的鲁棒性，即通过引入 “软提示” 嵌入参数并优化这些参数来最大化语义等效说明的表示之间的相似性。

Jun, 2023

视觉指令调整

本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型，得到了新的模型 LLaVA 并在多个数据集上表现出色。

Apr, 2023

通向通用多模型的视觉指导调整：一项调查

本文系统综述了视觉指令调整方法，包括计算机视觉任务范式、视觉指令调整的发展、常用的网络架构、评估设置和任务、常用的数据集、已有的视觉指令调整方法的分类和对比、挑战和未来研究方向。

Dec, 2023

BLIP-2：使用冻结图像编码器和大型语言模型引导语言图像预训练

本文提出 BLIP-2，一种通用且高效的预训练策略，通过使用冻结的图像编码器和大型语言模型来引导视觉语言表示学习，从而实现零样本图像到文本的生成。BLIP-2 在各种视觉语言任务上取得了最先进的性能。

Jan, 2023