NExT-GPT: 任意到任意多模态 LLM

Sep, 2023

NExT-GPT: Any-to-Any Multimodal LLM

Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua

TL;DR我们介绍了一个名为 NExT-GPT 的全方位任意多模式多语言模型系统，通过使用多模态适配器和不同扩散解码器，NExT-GPT 能够接受和生成文本、图像、视频和音频等任意组合的内容，并通过调优投影层的少量参数进行训练和扩展，使其具备复杂的跨模态语义理解和内容生成能力，为构建能够模拟通用模态的人工智能代理提供了有前景的可能性。

Abstract

While recently multimodal large language models (MM-LLMs) have made exciting strides, they mostly fall prey to the limitation of only input-side multimodal understanding, without the ability to produce content in multiple modalities. As we humans always perceive the world and communica

multimodal large language models any-to-any mm-llm system next-gpt modality-switching instruction tuning cross-modal semantic understanding

发现论文，激发创造

AnyGPT：统一的多模态离散顺序建模语言模型

我们介绍了 AnyGPT，一种任意到任意的多模态语言模型，它利用离散表示来统一处理各种语言模式，包括语音、文本、图像和音乐。AnyGPT 可以稳定地进行训练，而无需对当前的大型语言模型（LLM）架构或训练模式进行任何修改，而是完全依赖于数据级的预处理，使得新的模态能够无缝地集成到 LLM 中，类似于添加新的语言。我们构建了一个多模态以文本为中心的数据集，用于多模态对齐的预训练。通过使用生成模型，我们合成了第一个大规模的任意多模态指导数据集。它包含了 108k 个多轮对话样本，这些对话样本巧妙地交织了各种模态，从而使得模型能够处理任意的多模态输入和输出组合。实验结果表明，AnyGPT 能够促进任意到任意的多模态对话，同时在所有模态上实现了与专用模型相媲美的性能，证明了离散表示在语言模型中可以有效而便捷地统一多个模态。演示参见此 https 链接。

Feb, 2024

SwitchGPT：适用于非文本输出的大型语言模型调整

通过将大型语言模型转化为多模态模型，能够在无需复杂预训练的情况下，方便地为非文本响应提供高度灵活性的多模态方案。

Sep, 2023

通过将多模态视为外语来引导先进的大型语言模型

本文提出了一种名为 X-LLM 的多模态语言模型，它将多种形式的信息转化为语言输入到 ChatGLM 中进行处理，实现了语言模型的多模态能力，具有与 GPT-4 相当的人工智能水平，同时还能用于语音识别和多模态语音识别。

May, 2023

WorldGPT: 以语言模型为基础的多模态世界模型

构建于多模式大型语言模型（MLLM）之上的通用世界模型 WorldGPT，通过分析各领域的数百万个视频，使其理解世界动态。为了进一步增强 WorldGPT 在专门场景和长期任务中的能力，我们还将其与一种结合了内存卸载、知识检索和上下文反思的新型认知架构进行了集成。通过在涵盖各种现实情境的多模式状态转换预测基准 WorldNet 上进行评估，直接展示了 WorldGPT 准确建模状态转换模式的能力，确认其在理解和预测复杂情境动态方面的有效性。我们进一步探索了 WorldGPT 作为世界模拟器的潜力，通过高效合成多模式指令实例，帮助多模式代理在不熟悉的领域进行泛化，被证明与真实数据一样可靠用于微调目的。项目可在 https://github.com/DCDmllm/WorldGPT 找到。

Apr, 2024

AlignGPT: 具有自适应对齐能力的多模态大型语言模型

利用新的多模态大型语言模型 AlignGPT，通过在预训练阶段为不同的图像 - 文本对分配不同级别的对齐能力，并在指导微调阶段自适应地组合这些不同级别的对齐能力，以满足不同指令的动态对齐需求，取得了 12 个基准测试的竞争性性能。

May, 2024

SpeechGPT：赋能大型语言模型具备内在的跨模态对话能力

本文提出了 SpeechGPT，一个具有内在跨模式对话能力的大型语言模型，可以感知和生成多模式内容，并演示了语音 + 文本的多模态交互示例。

May, 2023

MultiModal-GPT: 一个视觉语言模型，用于人类对话

该研究提出了名为 MultiModal-GPT 的视觉与语言模型，可以利用证据和语言数据对多模式指令进行调整，为模型的不断对话提供支持，同时提出了联合培训的观点，并通过各种演示展示了 MultiModal-GPT 的连续对话能力。

May, 2023

AssistGPT：一款通用的多模态助手，可以计划、执行、检查和学习

为了解决多样化的视觉任务，我们提出了一种名为 Plan, Execute, Inspect, and Learn（PEIL）的交织代码和语言推理方法的多模态 AI 助手 AssistGPT，该助手集成了大语言模型与各种工具，实现了最先进的性能。

Jun, 2023

GPT4Video：一种用于指令跟随理解和注重安全生成的统一多模态大型语言模型

GPT4Video 是一个统一的多模型框架，将大型语言模型（LLMs）赋予了视频理解和生成的能力，通过集成基于指令遵循的方法和稳定扩散生成模型，GPT4Video 在视频理解和生成场景中表现出优异的能力，同时保持端到端的安全和健康对话。

Nov, 2023

AudioGPT：理解与生成语音、音乐、声音和说话人头像

本文提出了一种名为 AudioGPT 的多模 AI 系统，该系统结合了基础模型来处理复杂的音频信息和解决许多理解和生成任务，以及支持口语对话的输入 / 输出接口（ASR，TTS），并通过一系列实验证明了 AudioGPT 在多轮对话中具有语音、音乐、声音和对话理解和生成任务的能力。

Apr, 2023