Jul, 2024

MARS:细粒度文本图像合成的自回归模型混合

TL;DRMARS是一个新颖的T2I生成框架,它采用了专门设计的语义视觉语言集成专家(SemVIE),通过独立处理语言和视觉信息,保留了LLMs的自然语言处理能力,并赋予了其出色的视觉理解能力,具备中英文生成能力和图像与文本一起生成的能力,以及任意任意任务的适应性。它采用多阶段训练策略,首先通过双向任务建立稳健的图像-文本对齐,然后专注于改进T2I生成过程,显著增加了文本和图像的同步性和图像细节的粒度,并在各种基准测试中取得了显著成果,展示了训练效率以及在各种应用中快速部署的潜力。