PandaGPT：一种模型以指导全为本

May, 2023

PandaGPT: One Model To Instruction-Follow Them All

Yixuan Su, Tian Lan, Huayang Li, Jialu Xu, Yan Wang...

TL;DRPandaGPT 是一个使用视觉和听觉指令的方法来提高大型语言模型的能力，可以同时接收多模态输入并进行自然的语言生成，它能够执行任务如生成详细的图像描述和根据视频撰写故事等，并能连接图像 / 视频中物体的外观和音频中物体的声音，从而表现出跨模态的行为。

Abstract

We present pandagpt, an approach to emPower large language models with visual and Auditory instruction-following capabilities. Our pilot experiments show that →

pandagpt multimodal learning large language models visual and auditory instruction-following natural language generation

发现论文，激发创造

SpeechGPT：赋能大型语言模型具备内在的跨模态对话能力

本文提出了 SpeechGPT，一个具有内在跨模式对话能力的大型语言模型，可以感知和生成多模式内容，并演示了语音 + 文本的多模态交互示例。

May, 2023

MultiModal-GPT: 一个视觉语言模型，用于人类对话

该研究提出了名为 MultiModal-GPT 的视觉与语言模型，可以利用证据和语言数据对多模式指令进行调整，为模型的不断对话提供支持，同时提出了联合培训的观点，并通过各种演示展示了 MultiModal-GPT 的连续对话能力。

May, 2023

BuboGPT：多模态 LLM 中的视觉定位

BuboGPT 是一种多模态的 LLM，具有视觉定位和文本 - 图像 - 音频理解的能力，通过 SAM 和一个两阶段的训练方案来实现实体识别和对应目标的定位。在任意模态组合 (对齐或未对齐) 的情况下，BuboGPT 在与人类交互时表现出令人印象深刻的多模态理解和视觉定位能力。

Jul, 2023

AnyGPT：统一的多模态离散顺序建模语言模型

我们介绍了 AnyGPT，一种任意到任意的多模态语言模型，它利用离散表示来统一处理各种语言模式，包括语音、文本、图像和音乐。AnyGPT 可以稳定地进行训练，而无需对当前的大型语言模型（LLM）架构或训练模式进行任何修改，而是完全依赖于数据级的预处理，使得新的模态能够无缝地集成到 LLM 中，类似于添加新的语言。我们构建了一个多模态以文本为中心的数据集，用于多模态对齐的预训练。通过使用生成模型，我们合成了第一个大规模的任意多模态指导数据集。它包含了 108k 个多轮对话样本，这些对话样本巧妙地交织了各种模态，从而使得模型能够处理任意的多模态输入和输出组合。实验结果表明，AnyGPT 能够促进任意到任意的多模态对话，同时在所有模态上实现了与专用模型相媲美的性能，证明了离散表示在语言模型中可以有效而便捷地统一多个模态。演示参见此 https 链接。

Feb, 2024

MiniGPT-4: 借助先进的大型语言模型增强视觉 - 语言理解

本文介绍了 MiniGPT-4 模型，该模型利用像 GPT-4 这样的先进的大型语言模型（LLM）与视觉编码器对齐，可以生成详细的图像描述和从手写草图中创建网站等多重能力，采用对齐的图文数据集训练可以提高生成的可靠性和整体可用性。

Apr, 2023

生成式视觉指导调整

使用机器生成的指令跟随数据，通过集成对生成和图像编辑任务的支持，我们改进了一个大型多模态模型的零样本能力。我们构建了一个新的多模态指令跟随数据集，并使用 GPT-4V 和现有的图像生成和编辑数据集。通过三种类型的大型预训练模型的指令微调策略（语言模型的 LLaMA，图像文本匹配的 SigLIP，文本到图像生成的 StableDiffusion），我们建立了 GenLLaVA，一个生成性的大型语言与视觉助手。我们的模型在视觉理解任务上表现出与 LLaVA 相当的能力，并且与 Unified-IO 2 等本地多模态模型展示了有竞争力的结果，为构建先进的通用视觉助手铺平了道路。我们公开了数据集、代码库和模型检查点，以促进该领域的进一步研究与应用。

Jun, 2024

如何训练一款基于多模态输入的 GPT4 风格语言模型？

探讨大型语言模型的结构、训练数据、训练策略和不同指令对模型的影响，并且创建了一个既包括图像任务又包括视频任务的全面评估集，最终呈现了 Lynx，该模型在保持最佳多模生成能力的同时，表现出最准确的多模态理解能力。

Jul, 2023

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

PUMGPT：用于产品理解的大型视觉 - 语言模型

通过使用多模态大型语言模型的新发展，本文着重研究产品理解任务，提出了 PUMGPT 模型和 Layer-wise Adapters 方法，以在统一的模型结构下处理多模态产品信息查询，同时具备参数高效微调的优势，应用于产品说明、分类问题回答、属性提取、关于产品的自由形式问题回答等多个产品理解任务，表现出卓越的性能。

Aug, 2023

MiniGPT-v2：大型语言模型作为视觉语言多任务学习的统一接口

利用 MiniGPT-v2 建立一个统一的界面，有效地处理各种视觉 - 语言任务，包括图像描述、视觉问答和视觉定位等，并通过使用唯一标识符提高模型在每个任务中的学习效率。

Oct, 2023