MIMIC-IT: 多模态环境下指令调整
本文介绍了 Multi-Modal Multilingual Instruction Tuning 数据集,其中包含了 40 个经过精心筛选的数据集,共 2.4 百万个实例和 400 个任务指令,可用于优化视觉语言模型的人类指令对齐,同时介绍了在此数据集上训练的 Ying-VLM 视觉语言模型的表现。
Jun, 2023
本文介绍了一种在多模态模型中引入指令调整的方法,同时介绍了一个基于 OpenFlamingo 模型的 Otter 模型,它在 MIMIC-IT 数据集上训练,展示出提高的指令遵循能力和情境学习。同时,作者还优化了 OpenFlamingo 的实现方式,使更多研究人员能够将这些模型集成到自己的训练和推理流程中。
May, 2023
通过构建包括 160 万对问答对、106 千个详细图像描述的 320 万视觉指令调整数据集,对多模态模型进行训练可显著提高其在视觉感知、推理和规划方面的多模态性能。
Jul, 2023
本研究提出了 MultiInstruct,这是第一个多模态指令调优基准数据集,旨在设计多个特定的任务和多个专家编写的指令,使用已存在的开源数据集和多个迁移学习策略来优化 OFM 模型的强零示性能,并且探索了一个新的评估指标:敏感性。
Dec, 2022
我们构建了一个包含 75K 个指令 - 回答对的广泛数据集,针对 3D 场景进行了任务,如 3D VQA、3D grounding 和 3D conversation,并引入了一种名为 3DMIT 的新颖且高效的提示调优范例,通过将 3D 空间信息整合到 LLMs 中,使其更好地理解 3D 世界。
Jan, 2024
本篇论文研究了采用提示(prompt)对图片进行分类的方法,通过引入多模质询与 fine-tuning 相结合的方式,提高了图片分类的性能和领域适应性。
Apr, 2023
通过考虑模型和数据的角度,提出了 MMICL 去解决图像与文本交叉多模态提示的问题,通过无需训练的数据更好地适应用户真实应用中复杂的提示,其中包括多模态上下文与交叉的图像和文本、每个图像的文本参考以及具有空间、逻辑或时间关系的多图像数据。在广泛的视觉 - 语言任务中,特别是在复杂推理基准测试中,MMICL 取得了新的最先进的零样本和少样本性能。同时,对 ScienceQA-IMG 上的实验表明 MMICL 成功缓解了视觉 - 语言模型中的语言偏差问题,我们相信这是 MMICL 卓越性能背后的原因。
Sep, 2023
该研究分析了不同的多模态指导调优方法,并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能,揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解,但当前方法存在局限性,未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题,这些发现阐明了适应图像理解的语言模型的现有方法学限制,并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。
Oct, 2023
通过使用学术级资源进行指导调整,我们构建了多弱像素 LMMs,结合了多个单像素视觉语言数据集,证明了以低成本的指导调整构建多弱像素 LMMs 的效果比密集预训练更好。
May, 2024