通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾,我们总结出高质量图像语言调整数据的特点,构建了完整的数据收集、指令生成和质量控制模块的构建流水线,并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调整,并通过相应的度量指标进行了大量实验,以论证本文提出的构建原则的合理性。
Nov, 2023
本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型,得到了新的模型 LLaVA 并在多个数据集上表现出色。
Apr, 2023
通过构建最具多样性的 Vision-Flan 数据集和两阶段指导调优框架,本研究解决了现有 VLM 框架中的任务多样性和注释错误的挑战,并在广泛的多模态评估基准中取得了最新的最佳性能。
Feb, 2024
通过逐步可控的比较,我们研究了增强大语言模型 (LLM) 向视觉语言模型 (VLM) 扩展的 VLM 预训练过程的设计选择。我们通过增强的预训练方法构建了 VILA,一系列视觉语言模型,无需额外的修饰即可在主要基准测试中始终优于当前最先进的模型。多模态预训练还有助于揭示 VILA 的吸引人属性,包括多图像推理、增强的上下文学习和更好的世界知识。
Dec, 2023
利用 GPT-4V 生成图像的详细标题、复杂的推理指令和详细答案,通过合成数据集,我们训练了 ALLaVA 模型,该模型在 12 个基准测试中取得了竞争性的性能,展示了在构建更高效的 LVLMs 中采用高质量数据的可行性。
本文综述了视觉 - 语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022
我们提出了一种新的数据收集方法,通过异步合成图像和对话以进行视觉指导调优,结合 ChatGPT 和文本到图像生成模型的能力,显著增强了多种模型功能。
Aug, 2023
通过将自己作为过滤器,利用训练后的评分网络来衡量每个指令的难度,并选择最具挑战性的样本,自过滤方法可以在仅使用约 15% 的样本的情况下达到比全数据设置更好的结果,并取得优于竞争基线的性能。
通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集,探索大型预训练模型在多模机器翻译任务中的应用。
Jun, 2023
基于大语言模型和视觉变换的视觉语言模型(VLMs)的增长兴趣,我们观察到在 VLMs 设计中往往存在未经支持的决策,这使得很难确定哪些选择能够提高模型性能,为了解决这个问题,我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验,基于这些实验结果,我们开发了一个 8 亿参数的高效基础 VLM 模型
May, 2024