SVIT:扩展视觉指导调整
本文系统综述了视觉指令调整方法,包括计算机视觉任务范式、视觉指令调整的发展、常用的网络架构、评估设置和任务、常用的数据集、已有的视觉指令调整方法的分类和对比、挑战和未来研究方向。
Dec, 2023
通过引入区域级别的视觉编码器,本文提出了一种增强图像教学调整功能的多模态大型语言模型(MLLMs),以实现更细粒度的模态交叉对齐,并设计了多种数据生成策略构建了图像 - 区域 - 语言指令数据集,实验结果表明该模型的卓越性能。
Aug, 2023
本文介绍了 Multi-Modal Multilingual Instruction Tuning 数据集,其中包含了 40 个经过精心筛选的数据集,共 2.4 百万个实例和 400 个任务指令,可用于优化视觉语言模型的人类指令对齐,同时介绍了在此数据集上训练的 Ying-VLM 视觉语言模型的表现。
Jun, 2023
通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾,我们总结出高质量图像语言调整数据的特点,构建了完整的数据收集、指令生成和质量控制模块的构建流水线,并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调整,并通过相应的度量指标进行了大量实验,以论证本文提出的构建原则的合理性。
Nov, 2023
以 EmoVIT 架构为基础,使用 GPT 辅助流程生成情感视觉指令数据,并通过广泛实验证明了模型在情感分类、情感推理和幽默理解方面的能力,为语言模型时代的情感视觉指导调整提供了强有力的基准,并为未来的探索打开了新的可能性。
Apr, 2024
介绍了包含大规模多模态指令响应对的 MIMIC-IT 数据集,使用该数据集训练的 Otter 模型表现出出色的多模态感知、推理和语境学习能力,能有效地与用户意图保持一致。
Jun, 2023
TextSquare 通过使用 Square-10M 数据集,远远超过开源模型,提出了对文本中心的 MLLMs 进行调参的新方法,并在 OCR 评估中达到了新的标准 (62.2%),同时在 6 个文本中心基准测试中胜过 GPT4V 和 Gemini 模型。此外,研究还展示了 VQA 推理数据在提供全面上下文洞察力方面的关键作用,并提高了准确性,显著减轻了幻觉。最后,研究揭示了文本中心 VQA 数据集规模的指数级增长与模型性能改善之间的关系,验证了数据集规模和 Square-10M 的高质量的必要性。
Apr, 2024
通过构建最具多样性的 Vision-Flan 数据集和两阶段指导调优框架,本研究解决了现有 VLM 框架中的任务多样性和注释错误的挑战,并在广泛的多模态评估基准中取得了最新的最佳性能。
Feb, 2024
本篇论文研究了采用提示(prompt)对图片进行分类的方法,通过引入多模质询与 fine-tuning 相结合的方式,提高了图片分类的性能和领域适应性。
Apr, 2023
我们提出了一种新的数据收集方法,通过异步合成图像和对话以进行视觉指导调优,结合 ChatGPT 和文本到图像生成模型的能力,显著增强了多种模型功能。
Aug, 2023