通过使用 LORA 方法,我们提出了使用特定领域的信息数据集进行模型参数微调的方法,我们的研究旨在提高 Video-LLaVA 模型在烹饪视频中生成特定食材列表和详细指导的能力。
Jun, 2024
我们提出了一种新的数据收集方法,通过异步合成图像和对话以进行视觉指导调优,结合 ChatGPT 和文本到图像生成模型的能力,显著增强了多种模型功能。
Aug, 2023
使用机器生成的指令跟随数据,通过集成对生成和图像编辑任务的支持,我们改进了一个大型多模态模型的零样本能力。我们构建了一个新的多模态指令跟随数据集,并使用 GPT-4V 和现有的图像生成和编辑数据集。通过三种类型的大型预训练模型的指令微调策略(语言模型的 LLaMA,图像文本匹配的 SigLIP,文本到图像生成的 StableDiffusion),我们建立了 GenLLaVA,一个生成性的大型语言与视觉助手。我们的模型在视觉理解任务上表现出与 LLaVA 相当的能力,并且与 Unified-IO 2 等本地多模态模型展示了有竞争力的结果,为构建先进的通用视觉助手铺平了道路。我们公开了数据集、代码库和模型检查点,以促进该领域的进一步研究与应用。
本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型,得到了新的模型 LLaVA 并在多个数据集上表现出色。
Apr, 2023
当探索人工通用智能(AGI)的发展时,大型多模态模型(LMMs)在处理多个图像输入的信息时面临两个问题:细粒度感知的缺乏和融合多个图像的倾向。我们首先广泛研究了 LMMs 在处理多个输入图像时感知细粒度视觉细节的能力。研究集中在两个方面:首先,图像与图像匹配(评估 LMMs 是否能够有效推理和配对相关图像),其次,多图像与文本匹配(评估 LMMs 是否能够准确捕捉和总结详细的图像信息)。我们对一系列开源和闭源的大型模型进行评估,包括 GPT-4V,Gemini,OpenFlamingo 和 MMICL。为了增强模型性能,我们还基于多输入多模态模型开发了一种对比的思维链(CoCoT)启发方法。该方法要求 LMMs 比较多个图像输入的相似性和差异性,然后根据确定的相似性和差异性指导模型回答关于多图像输入的详细问题。我们的实验结果展示了 CoCoT 在增强大型多模态模型的多图像理解能力方面的熟练度。
Jan, 2024
通过使用来自 LVIS 的图像激励强大的 GPT-4V 生成 220K 个视觉对齐和上下文感知指令,我们推出了一个细粒度的视觉指令数据集 LVIS-Instruct4V,并通过实验验证和案例研究证明,高质量的视觉指令数据可以显著提高现有最先进的大型多模态模型 LLaVA-1.5 在各类基准测试中的性能。
Nov, 2023
本研究提出了 LLaVAR 模型,是通过用包含文字的图像文本对模型进行训练来增强当前视觉指令调优流程的,该模型显着提高了模型在基于文本的 VQA 数据集上的性能,并通过定性分析展示了与人类交互的潜力。
Jun, 2023
指导微调(IFT)是一种强化大型语言模型(LLM)的零样本能力的强大范式,但在此过程中引入了新的评估指标要求。我们展示了基于 LLM 的评估指标适应这些要求,并利用它们对任务专业化策略进行调查,量化在实际工业环境中出现的权衡。我们的发现为从业者在实际的 IFT 模型部署中提供了可行的见解。
Oct, 2023
通过渐进对齐的假设,我们提出了一种新颖的分阶段指令微调(Phased IFT)方法,基于难度评分并使用逐步训练的方式显著地提高了预训练语言模型的指令遵循能力。
本文介绍了 Multi-Modal Multilingual Instruction Tuning 数据集,其中包含了 40 个经过精心筛选的数据集,共 2.4 百万个实例和 400 个任务指令,可用于优化视觉语言模型的人类指令对齐,同时介绍了在此数据集上训练的 Ying-VLM 视觉语言模型的表现。