SVIT：扩展视觉指导调整

Jul, 2023

SVIT: Scaling up Visual Instruction Tuning

Bo Zhao, Boya Wu, Tiejun Huang

TL;DR通过构建包括 160 万对问答对、106 千个详细图像描述的 320 万视觉指令调整数据集，对多模态模型进行训练可显著提高其在视觉感知、推理和规划方面的多模态性能。

Abstract

Thanks to the emerging of foundation models, the large language and vision models are integrated to acquire the multimodal ability of visual captioning, dialogue, question answering, etc. Although existing multimodal models present impressive performance of visual understanding and

multimodal models visual instruction tuning dataset visual perception reasoning

发现论文，激发创造

通向通用多模型的视觉指导调整：一项调查

本文系统综述了视觉指令调整方法，包括计算机视觉任务范式、视觉指令调整的发展、常用的网络架构、评估设置和任务、常用的数据集、已有的视觉指令调整方法的分类和对比、挑战和未来研究方向。

Dec, 2023

多模态大语言模型的位置增强视觉指令调整

通过引入区域级别的视觉编码器，本文提出了一种增强图像教学调整功能的多模态大型语言模型（MLLMs），以实现更细粒度的模态交叉对齐，并设计了多种数据生成策略构建了图像 - 区域 - 语言指令数据集，实验结果表明该模型的卓越性能。

Aug, 2023

M$^3$IT: 多模态多语言指令调整的大规模数据集

本文介绍了 Multi-Modal Multilingual Instruction Tuning 数据集，其中包含了 40 个经过精心筛选的数据集，共 2.4 百万个实例和 400 个任务指令，可用于优化视觉语言模型的人类指令对齐，同时介绍了在此数据集上训练的 Ying-VLM 视觉语言模型的表现。

Jun, 2023

视觉语言指导调整：综述与分析

通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾，我们总结出高质量图像语言调整数据的特点，构建了完整的数据收集、指令生成和质量控制模块的构建流水线，并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调整，并通过相应的度量指标进行了大量实验，以论证本文提出的构建原则的合理性。

Nov, 2023

EmoVIT：利用视觉指令调整革新情绪洞察

以 EmoVIT 架构为基础，使用 GPT 辅助流程生成情感视觉指令数据，并通过广泛实验证明了模型在情感分类、情感推理和幽默理解方面的能力，为语言模型时代的情感视觉指导调整提供了强有力的基准，并为未来的探索打开了新的可能性。

Apr, 2024

MIMIC-IT: 多模态环境下指令调整

介绍了包含大规模多模态指令响应对的 MIMIC-IT 数据集，使用该数据集训练的 Otter 模型表现出出色的多模态感知、推理和语境学习能力，能有效地与用户意图保持一致。

Jun, 2023

TextSquare：文本为中心的视觉指令调优的扩展

TextSquare 通过使用 Square-10M 数据集，远远超过开源模型，提出了对文本中心的 MLLMs 进行调参的新方法，并在 OCR 评估中达到了新的标准 (62.2%)，同时在 6 个文本中心基准测试中胜过 GPT4V 和 Gemini 模型。此外，研究还展示了 VQA 推理数据在提供全面上下文洞察力方面的关键作用，并提高了准确性，显著减轻了幻觉。最后，研究揭示了文本中心 VQA 数据集规模的指数级增长与模型性能改善之间的关系，验证了数据集规模和 Square-10M 的高质量的必要性。

Apr, 2024

视觉指导调整中基于人工标注任务的扩展

通过构建最具多样性的 Vision-Flan 数据集和两阶段指导调优框架，本研究解决了现有 VLM 框架中的任务多样性和注释错误的挑战，并在广泛的多模态评估基准中取得了最新的最佳性能。

Feb, 2024

Instruction-ViT: ViT 中用于指令学习的多模态提示

本篇论文研究了采用提示（prompt）对图片进行分类的方法，通过引入多模质询与 fine-tuning 相结合的方式，提高了图片分类的性能和领域适应性。

Apr, 2023

稳定的 LLaVA：通过合成的图像对话数据增强视觉指导调整

我们提出了一种新的数据收集方法，通过异步合成图像和对话以进行视觉指导调优，结合 ChatGPT 和文本到图像生成模型的能力，显著增强了多种模型功能。

Aug, 2023