SpeechGPT：赋能大型语言模型具备内在的跨模态对话能力

May, 2023

SpeechGPT：赋能大型语言模型具备内在的跨模态对话能力

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

Dong Zhang, Shimin Li, Xin Zhang, Jun Zhan, Pengyu Wang...

TL;DR本文提出了 SpeechGPT，一个具有内在跨模式对话能力的大型语言模型，可以感知和生成多模式内容，并演示了语音 + 文本的多模态交互示例。

Abstract

multi-modal large language models are regarded as a crucial step towards Artificial General Intelligence (AGI) and have garnered significant interest with the emergence of ChatGPT. However, current speech-language models typically adopt the cascade paradigm, preventing inter-modal know

multi-modal large language model speechgpt cross-modal multi-model content

发现论文，激发创造

MultiModal-GPT: 一个视觉语言模型，用于人类对话

该研究提出了名为 MultiModal-GPT 的视觉与语言模型，可以利用证据和语言数据对多模式指令进行调整，为模型的不断对话提供支持，同时提出了联合培训的观点，并通过各种演示展示了 MultiModal-GPT 的连续对话能力。

May, 2023

AudioGPT：理解与生成语音、音乐、声音和说话人头像

本文提出了一种名为 AudioGPT 的多模 AI 系统，该系统结合了基础模型来处理复杂的音频信息和解决许多理解和生成任务，以及支持口语对话的输入 / 输出接口（ASR，TTS），并通过一系列实验证明了 AudioGPT 在多轮对话中具有语音、音乐、声音和对话理解和生成任务的能力。

Apr, 2023

AnyGPT：统一的多模态离散顺序建模语言模型

我们介绍了 AnyGPT，一种任意到任意的多模态语言模型，它利用离散表示来统一处理各种语言模式，包括语音、文本、图像和音乐。AnyGPT 可以稳定地进行训练，而无需对当前的大型语言模型（LLM）架构或训练模式进行任何修改，而是完全依赖于数据级的预处理，使得新的模态能够无缝地集成到 LLM 中，类似于添加新的语言。我们构建了一个多模态以文本为中心的数据集，用于多模态对齐的预训练。通过使用生成模型，我们合成了第一个大规模的任意多模态指导数据集。它包含了 108k 个多轮对话样本，这些对话样本巧妙地交织了各种模态，从而使得模型能够处理任意的多模态输入和输出组合。实验结果表明，AnyGPT 能够促进任意到任意的多模态对话，同时在所有模态上实现了与专用模型相媲美的性能，证明了离散表示在语言模型中可以有效而便捷地统一多个模态。演示参见此 https 链接。

Feb, 2024

GPT3Mix：利用大规模语言模型进行文本增强

本文提出一种新的数据增广技术，利用大规模的语言模型从混合的样本中生成逼真的文本样本，并利用语言模型预测的软标签，从大规模语言模型中蒸馏知识并同时创建文本扰动，我们在多元化的分类任务上进行数据增广实验，并展示了该方法远远优于现有的文本增广方法，消融研究和定性分析提供了更多的见解。

Apr, 2021

NExT-GPT: 任意到任意多模态 LLM

我们介绍了一个名为 NExT-GPT 的全方位任意多模式多语言模型系统，通过使用多模态适配器和不同扩散解码器，NExT-GPT 能够接受和生成文本、图像、视频和音频等任意组合的内容，并通过调优投影层的少量参数进行训练和扩展，使其具备复杂的跨模态语义理解和内容生成能力，为构建能够模拟通用模态的人工智能代理提供了有前景的可能性。

Sep, 2023

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

PandaGPT：一种模型以指导全为本

PandaGPT 是一个使用视觉和听觉指令的方法来提高大型语言模型的能力，可以同时接收多模态输入并进行自然的语言生成，它能够执行任务如生成详细的图像描述和根据视频撰写故事等，并能连接图像 / 视频中物体的外观和音频中物体的声音，从而表现出跨模态的行为。

May, 2023

ShapeGPT：统一多模态语言模型用于 3D 形状生成

ShapeGPT 是一个包含形状的多模态框架，利用强大的预训练语言模型解决多个与形状相关的任务，包括文本到形状的转换和形状编辑。

Nov, 2023

如何训练一款基于多模态输入的 GPT4 风格语言模型？

探讨大型语言模型的结构、训练数据、训练策略和不同指令对模型的影响，并且创建了一个既包括图像任务又包括视频任务的全面评估集，最终呈现了 Lynx，该模型在保持最佳多模生成能力的同时，表现出最准确的多模态理解能力。

Jul, 2023

SwitchGPT：适用于非文本输出的大型语言模型调整

通过将大型语言模型转化为多模态模型，能够在无需复杂预训练的情况下，方便地为非文本响应提供高度灵活性的多模态方案。

Sep, 2023