Sep, 2023

NExT-GPT: 任意到任意多模态 LLM

TL;DR我们介绍了一个名为 NExT-GPT 的全方位任意多模式多语言模型系统,通过使用多模态适配器和不同扩散解码器,NExT-GPT 能够接受和生成文本、图像、视频和音频等任意组合的内容,并通过调优投影层的少量参数进行训练和扩展,使其具备复杂的跨模态语义理解和内容生成能力,为构建能够模拟通用模态的人工智能代理提供了有前景的可能性。