Sep, 2023

联合训练大型自回归多模态模型

TL;DR近年来,语言和文本到图像模型的大规模预训练的进步已经革新了机器学习领域。然而,将这两种模态集成到一个能够生成无缝多模态输出的强大模型仍然是一个重大挑战。为了解决这个问题,我们提出了联合自回归混合(JAM)框架,这是一种模块化的方法,系统地融合了现有的文本和图像生成模型。我们还引入了一种专门的、高效的数据调优策略,为混合模态生成任务量身定制。我们最终调优的模型在生成高质量多模态输出方面表现出了无与伦比的性能,并且代表了首个明确设计用于此目的的模型。