Lumina-mGPT:通过多模态生成预训练实现灵活的照片级真实感文本到图像生成
本文研究了图片到文本和文本到图片生成的联合学习,使用了基于Transformer 的单个多模式模型来统一学习双向任务,并通过两级粒度特征表示和序列级训练进一步改进Transformer的统一框架,实验证明,该方法显著提高了先前基于Transformer的模型X-LXMERT的文本到图像生成的FID(37.0→29.9)和在MS-COCO数据集上对细调图像到文本生成的CIDEr-D得分(100.9%→122.6%)。
Oct, 2021
L-Verse是一种图像文本双向生成神经网络,它由增强特征自编码器AugVAE和双向自回归变压器BiART组成,能够在不需要调整或额外目标检测框架的情况下直接用于图像到文本或文本到图像的生成。
Nov, 2021
本文提出了基于Transformer模型的统一生成预训练框架 - ERNIE-ViLG,旨在处理双向图像-文本生成任务,采用图像量化模型并将图像生成和文本生成条件建模为自回归的生成任务,通过双向图像-文本生成建模易于实现语义对齐。在大规模数据集上进行训练,取得了针对文本-图像合成和图像描述任务的最佳表现。
Dec, 2021
该研究提出了Pathways Autoregressive Text-to-Image(Parti)模型,它是一个将文本转换为高保真度照片般的图像的模型,并支持包含复杂组合和世界知识的内容丰富的合成。
Jun, 2022
Muse是一种基于遮蔽建模任务在离散令牌空间中训练的文本到图像Transformer模型,借助预训练的大型语言模型,实现了高度还原原始文本意图的图像生成能力,同时也能够直接应用于图像编辑等任务。
Jan, 2023
本篇论文提出了一种基于变压器的联合视觉与语言模型,名为MAGVLT,它可以生成图像和文本序列,并且相对于以前的模型具有双向上下文编码和更快的并行词汇预测等优点。经过实验证明,MAGVLT可以在零样本情况下使用较小的模型(少于500M参数)在 MS-COCO 数据集上取得很好的成果。
Mar, 2023
UNIMO-G 是一个简单的多模态条件扩散框架,能够对多模态提示进行操作,并展示了文本驱动和主体驱动图像生成的统一能力。该框架通过训练大规模文本-图像对,以及使用多模态提示进行指导微调,实现了高保真度的图像生成。
Jan, 2024
Lumina-T2X是一种Flow-based Large Diffusion Transformer (Flag-DiT)模型,通过将不同模态的表示统一到一个框架中,实现了任意分辨率、宽高比和长度的图像、视频、多视角3D物体和音频剪辑的生成。采用RoPE、RMSNorm和Flow matching等先进技术,Lumina-T2X模型在稳定性、灵活性和可伸缩性方面取得了突破,并在分辨率外推、高分辨率编辑、一致的3D视图合成和视频过渡等任务中展现了出色的性能。
May, 2024
Lumina-Next是一种改进的next-generation generative AI,使用diffusion transformers进行text-to-image generation和multilingual generation,表现出强大的生成性能和通用建模能力。
Jun, 2024
MARS是一个新颖的T2I生成框架,它采用了专门设计的语义视觉语言集成专家(SemVIE),通过独立处理语言和视觉信息,保留了LLMs的自然语言处理能力,并赋予了其出色的视觉理解能力,具备中英文生成能力和图像与文本一起生成的能力,以及任意任意任务的适应性。它采用多阶段训练策略,首先通过双向任务建立稳健的图像-文本对齐,然后专注于改进T2I生成过程,显著增加了文本和图像的同步性和图像细节的粒度,并在各种基准测试中取得了显著成果,展示了训练效率以及在各种应用中快速部署的潜力。
Jul, 2024