MultiModal-GPT: 一个视觉语言模型,用于人类对话
本文提出了 SpeechGPT,一个具有内在跨模式对话能力的大型语言模型,可以感知和生成多模式内容,并演示了语音 + 文本的多模态交互示例。
May, 2023
介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型,用于理解和生成关于视频的人类对话,并介绍了使用手动和半自动管道获得的新数据集,可用于训练和评估基于视频的对话模型,并在定量评估框架下分析了该模型的优劣。
Jun, 2023
介绍 VisionGPT,通过整合和自动化最先进的基础模型,促进视觉语言理解和视觉导向人工智能的发展,具有高效性、通用性和性能表现的潜力。
Mar, 2024
探讨大型语言模型的结构、训练数据、训练策略和不同指令对模型的影响,并且创建了一个既包括图像任务又包括视频任务的全面评估集,最终呈现了 Lynx,该模型在保持最佳多模生成能力的同时,表现出最准确的多模态理解能力。
Jul, 2023
通过使用 MoqaGPT 框架,我们可以在多模式开放域问答任务中实现零 - shot 学习,并提高多模式问答数据集上的性能。
Oct, 2023
利用 MiniGPT-v2 建立一个统一的界面,有效地处理各种视觉 - 语言任务,包括图像描述、视觉问答和视觉定位等,并通过使用唯一标识符提高模型在每个任务中的学习效率。
Oct, 2023
我们介绍了一个名为 NExT-GPT 的全方位任意多模式多语言模型系统,通过使用多模态适配器和不同扩散解码器,NExT-GPT 能够接受和生成文本、图像、视频和音频等任意组合的内容,并通过调优投影层的少量参数进行训练和扩展,使其具备复杂的跨模态语义理解和内容生成能力,为构建能够模拟通用模态的人工智能代理提供了有前景的可能性。
Sep, 2023
BuboGPT 是一种多模态的 LLM,具有视觉定位和文本 - 图像 - 音频理解的能力,通过 SAM 和一个两阶段的训练方案来实现实体识别和对应目标的定位。在任意模态组合 (对齐或未对齐) 的情况下,BuboGPT 在与人类交互时表现出令人印象深刻的多模态理解和视觉定位能力。
Jul, 2023
我们介绍了 AnyGPT,一种任意到任意的多模态语言模型,它利用离散表示来统一处理各种语言模式,包括语音、文本、图像和音乐。AnyGPT 可以稳定地进行训练,而无需对当前的大型语言模型(LLM)架构或训练模式进行任何修改,而是完全依赖于数据级的预处理,使得新的模态能够无缝地集成到 LLM 中,类似于添加新的语言。我们构建了一个多模态以文本为中心的数据集,用于多模态对齐的预训练。通过使用生成模型,我们合成了第一个大规模的任意多模态指导数据集。它包含了 108k 个多轮对话样本,这些对话样本巧妙地交织了各种模态,从而使得模型能够处理任意的多模态输入和输出组合。实验结果表明,AnyGPT 能够促进任意到任意的多模态对话,同时在所有模态上实现了与专用模型相媲美的性能,证明了离散表示在语言模型中可以有效而便捷地统一多个模态。演示参见此 https 链接。
Feb, 2024
通过分析最新的模型 GPT-4V,我们深入了解大型多模态模型(LMMs)的能力和特点,发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力,以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。
Sep, 2023