MARS：细粒度文本图像合成的自回归模型混合

Jul, 2024

MARS：细粒度文本图像合成的自回归模型混合

MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis

Wanggui He, Siming Fu, Mushui Liu, Xierui Wang, Wenyi Xiao...

TL;DRMARS是一个新颖的T2I生成框架，它采用了专门设计的语义视觉语言集成专家（SemVIE），通过独立处理语言和视觉信息，保留了LLMs的自然语言处理能力，并赋予了其出色的视觉理解能力，具备中英文生成能力和图像与文本一起生成的能力，以及任意任意任务的适应性。它采用多阶段训练策略，首先通过双向任务建立稳健的图像-文本对齐，然后专注于改进T2I生成过程，显著增加了文本和图像的同步性和图像细节的粒度，并在各种基准测试中取得了显著成果，展示了训练效率以及在各种应用中快速部署的潜力。

Abstract

auto-regressive models have made significant progress in the realm of language generation, yet they do not perform on par with diffusion models in the domain of image synthesis. In this work, we introduce

发现论文，激发创造

ERNIE-ViLG：双向视觉语言生成统一预训练

本文提出了基于Transformer模型的统一生成预训练框架 - ERNIE-ViLG，旨在处理双向图像-文本生成任务，采用图像量化模型并将图像生成和文本生成条件建模为自回归的生成任务，通过双向图像-文本生成建模易于实现语义对齐。在大规模数据集上进行训练，取得了针对文本-图像合成和图像描述任务的最佳表现。

Dec, 2021

在大型语言模型中种下一个愿景的种子

本文介绍了SEED，一种复杂的图像分词器，可使大型语言模型同时有看和画的能力，并提出了两个重要的原则，以有效地便于将SEED与LLMs对齐。

Jul, 2023

SimVLG: 简单高效的视觉语言生成模型预训练

本文提出了“SimVLG”——一种用于预训练计算密集型视觉语言生成模型的简化框架，利用冻结的预训练大型语言模型 (LLMs)。我们的单阶段单损失框架通过在训练过程中逐渐合并相似的视觉标记来绕过计算密集型的初始训练阶段，从而实现了快速收敛而不损失性能。实验证明，我们的方法可以将视觉语言模型的训练速度提高5倍，而整体性能几乎没有明显影响。此外，我们展示了我们的模型只需原数据的十分之一即可达到与当前视觉语言模型相当的性能。最后，我们通过一种新颖的软性注意力时序标记合并模块展示了如何轻松将我们的图像-文本模型应用于视频-语言生成任务。

Oct, 2023

利用无配对数据进行视觉-语言生成模型的循环一致性优化

本文介绍了ITIT（InTegrating Image Text）模型，采用循环一致性原则，通过在未配对的图像和文本数据上进行双向图像到文本和文本到图像的生成，实现视觉语言训练，并证明其在与高质量配对数据相比的图像生成和字幕性能上表现类似。

Oct, 2023

DreamSync：将文本到图像生成与图像理解反馈对齐

通过使用无需标记数据的DreamSync训练算法，结合大视觉语言模型（VLMs）来改进文本到图像模型（T2I）的语义对齐和美观度。

Nov, 2023

DiffusionGPT: 基于LLM的文本到图像生成系统

DiffusionGPT结合了扩散模型、文本到图像系统和领域特定树，提供了一个统一的生成系统，能够适应各种类型的提示并集成领域专家模型，推动了多领域图像合成的边界。

Jan, 2024

桥接不同的语言模型和生成视觉模型用于文本到图像生成

通过整合进阶的语言模型和生成式视觉模型，本研究提出了LaVi-Bridge管道，用于实现文本到图像的生成，证明这种整合可以显著改进文本对齐和图像质量等性能。

Mar, 2024

通过自动提示优化提升文本到图像的一致性

通过利用大型语言模型，在文本到图像的生成模型中改善提示-图像的一致性，我们的方法能够提高一致性得分、保持图像质量和提高生成图像与真实数据之间的相似度，为构建可靠且强大的文本到图像模型铺平了道路。

Mar, 2024

LLM4GEN：利用语义表示的LLM用于文本到图像生成

LLM4GEN通过结合LLMs特征设计的Cross-Adapter模块，有效提高了复杂和密集提示的语义理解能力，为text-to-image生成任务带来了显著改进，并在sample质量、图像文本对齐和人工评估方面超越了现有的最先进模型。

Jun, 2024

Lumina-mGPT：通过多模态生成预训练实现灵活的照片级真实感文本到图像生成

本研究聚焦于改进现有的文本到图像生成技术，提出Lumina-mGPT模型，利用多模态生成预训练（mGPT）进行灵活的照片级真实感图像生成。我们的主要发现表明，使用简单的解码器变换器与高质量图像-文本对联合微调，可以在各个分辨率下实现高审美图像合成，并保持广泛的多模态能力。

Aug, 2024