Feb, 2024

AnyGPT:统一的多模态离散顺序建模语言模型

TL;DR我们介绍了 AnyGPT,一种任意到任意的多模态语言模型,它利用离散表示来统一处理各种语言模式,包括语音、文本、图像和音乐。AnyGPT 可以稳定地进行训练,而无需对当前的大型语言模型(LLM)架构或训练模式进行任何修改,而是完全依赖于数据级的预处理,使得新的模态能够无缝地集成到 LLM 中,类似于添加新的语言。我们构建了一个多模态以文本为中心的数据集,用于多模态对齐的预训练。通过使用生成模型,我们合成了第一个大规模的任意多模态指导数据集。它包含了 108k 个多轮对话样本,这些对话样本巧妙地交织了各种模态,从而使得模型能够处理任意的多模态输入和输出组合。实验结果表明,AnyGPT 能够促进任意到任意的多模态对话,同时在所有模态上实现了与专用模型相媲美的性能,证明了离散表示在语言模型中可以有效而便捷地统一多个模态。演示参见此 https 链接。