SPHINX:多模态大型语言模型的权重、任务和视觉嵌入的联合混合
我们提出了 SPHINX-X,这是一个建立在 SPHINX 基础上的广泛的多模态大型语言模型系列。通过去除冗余的视觉编码器、利用跳过标记绕过全填充子图像,以及简化多阶段训练为一阶段的所有合一范式,我们改进了 SPHINX 框架的架构和训练效率。为了充分发挥多模态大型语言模型的潜力,我们组装了一个包括语言、视觉和视觉 - 语言任务中公开可用资源的全面多领域和多模态数据集。我们进一步通过我们精心策划的 OCR 密集和一系列标记数据集丰富了这个收集,扩展了多样性和普适性。通过在不同的基础 LLM 上进行训练,包括 TinyLlama1.1B、InternLM2-7B、LLaMA2-13B 和 Mixtral8x7B,我们获得了一系列参数大小和多语言能力各不相同的 MLLM。全面的基准测试显示,多模态性能与数据和参数规模之间存在着强烈的相关性。代码和模型已在此 URL 发布。
Feb, 2024
我们介绍了 Draw-and-Understand 项目,其中包括一种新的多模域数据集和一种具有挑战性的视觉提示基准测试。我们提出了 SPHINX-V,一种新的端到端训练的多模域大型语言模型,用于连接视觉编码器、视觉提示编码器和语言理解模型,以实现各种视觉提示和语言理解。同时,我们还提出了 MDVP-Data 和 MDVP-Bench,用于促进多模域大型语言模型中的视觉提示研究,并提供了多领域数据集和具有挑战性的基准测试。我们的实验结果表明,SPHINX-V 通过视觉提示展现出了卓越的多模交互能力,并在详细的像素级描述和问答能力方面取得了显著的改进。
Mar, 2024
本文提出了一种多模态学习的编码器 - 解码器模型,学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码,该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时,该模型通过线性编码器捕捉到了空间算术中的多模态规律。
Nov, 2014
本研究提出了混合模态适应方法(MMA),它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁,实现图像和语言模型的联合优化,同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型,并在两种场景下进行了实验验证,表明其训练效率和性能竞争力均优于现有多模 LLMs,且具有成为通用聊天机器人的潜力。
May, 2023
mPLUG 是一个新的视觉语言基础模型,通过新颖的跨模态 skip-connections 有效缓解了现有预训练模型由于跨模态对齐中长的视觉序列带来的信息不对称和低计算效率等问题,通过对大规模图像 - 文本对的端到端预训练,具有良好的视觉和语言能力,并在图像字幕生成、图像 - 文本检索、视觉定位和视觉问答等一系列视觉语言场景下实现了最先进的结果,并且具有很强的零样本学习能力。
May, 2022
最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。MLLMs 的能力取决于两个关键因素:用于实现视觉模块和大型语言模型特征对齐的模型架构以及用于人类指令跟随的多模态指令调整数据集。本研究发现,紧凑的预训练视觉语言模型天然地可以作为视觉和语言之间 ' 开箱即用 ' 的桥梁。基于此,我们提出了 Muffin 框架,直接使用预训练的视觉语言模型作为视觉信号的提供者。此外,我们还提出了 UniMM-Chat 数据集,探索了数据集之间的补充关系,生成了 1.1M 个高质量而多样化的多模态指令。实验结果表明 Muffin 框架和 UniMM-Chat 数据集的有效性。Muffin 在广泛的视觉语言任务中实现了最先进的性能,显著超过了 LLaVA 和 InstructBLIP 等最先进模型。我们的模型和数据集均可在此链接处访问。
Oct, 2023
本文介绍了语义金字塔自编码器(SPAE),它使得具有非语言模式(如图像或视频)的被冻结的 LLMs 能够执行理解和生成任务。我们的方法通过在冻结的 PaLM 2 和 GPT 3.5 上进行多样化的图像理解和生成任务中上下文学习实验证明,是首次成功尝试使冻结的 LLM 生成图像内容,并在相同的环境中在图像理解任务中表现优于现有技术 25%以上。
Jun, 2023
本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM,在冻结大多数参数、仅训练一个线性投影层,前置仅一个可训练标记的情况下,显著优于基线,并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。
Mar, 2023
我们提出了 ImageBind-LLM,一种通过 ImageBind 进行大型语言模型(LLM)的多模态指令调优方法。我们的方法可以响应多模态条件,包括音频、三维点云、视频以及它们的嵌入空间算术,仅通过图像文本对齐训练。我们的模型表现出卓越的多模态指令跟随能力,并具有显著的语言生成质量。
Sep, 2023
本文提出了一种模型,其将图像和相关的口头描述作为输入,并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号,并采用嵌入和对准模型将两个网络联系在一起,以学习跨两种模态的联合语义空间,最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。
Nov, 2015