CogView3：通过中继扩散实现更精细和更快速的文本到图像生成

Mar, 2024

CogView3：通过中继扩散实现更精细和更快速的文本到图像生成

CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

Wendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen...

TL;DRCogView3 是一种基于级联框架的文本到图像生成模型，通过实现中继扩散和超分辨率技术来提升性能，在人工评估中比当前开源文本到图像扩散模型 SDXL 表现优秀 77.0%，同时只需约 1/2 的推理时间。

Abstract

Recent advancements in text-to-image generative systems have been largely driven by diffusion models. However, single-stage text-to-image diffusion models still face challenges, in terms of computational efficien

text-to-image generative systems diffusion models cogview3 relay diffusion super-resolution

发现论文，激发创造

CogView2：采用分层 Transformer 技术的更快更好的文本到图像生成

本文提出了基于分层 Transformer 和本地并行自回归生成的解决方案，使用一个简单灵活的自监督任务 CogLM 进行预训练，并将其用于快速超分辨率。新的文本到图像系统 CogView2 相对于最先进的 DALL-E-2 具有非常优异的生成能力，并自然支持图像文本引导编辑。

Apr, 2022

用 Transformer 掌握文本到图像生成的技巧 ——CogView

提出了一个使用 4 亿多参数的 Transformer 模型 CogView 以及 VQ-VAE 分词器解决通用领域文本到图像生成问题，并展示了细调策略和预训练稳定化方法，CogView 在模糊的 MS COCO 数据集上实现了最优性能，胜过以前基于 GAN 的模型和最近的 DALL-E 相似作品。

May, 2021

具有深度语言理解的照片级文本到图像扩散模型

提出了一种 Imagin 技术，在理解文本方面，利用大型 transformer 语言模型，以高逼真度和深度的语言理解建立了文本到图像的扩散模型，实现了高保真的图像生成。通过一个全面的基准测试 DrawBench，该方法在图像 - 文本对齐和样本质量方面优于 VQ-GAN+CLIP、Latent Diffusion Models 和 DALL-E 2。

May, 2022

文字图像条件扩散用于一致的文字到 3D 生成

通过将预训练的二维扩散模型引入神经光辐射场（NeRFs），文本到三维生成方法取得了巨大的进展，其中许多最先进的方法通常使用得分蒸馏采样（SDS）来优化 NeRF 表示，该方法通过预训练的文本条件的二维扩散模型（例如 ImData）监督 NeRF 优化。然而，由这种预训练扩散模型提供的监督信号仅依赖于文本提示，并不限制多视角一致性。为了将跨视角一致性引入扩散先验中，一些最近的工作通过多视角数据微调二维扩散模型，但仍缺乏细粒度的视图连贯性。为了解决这个挑战，我们将多视角图像条件纳入 NeRF 优化的监督信号中，明确强制执行细粒度的视图一致性。通过这种更强的监督，我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在 T$^3$Bench 数据集上的定量评估表明，我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。

Dec, 2023

文本生成图像的移位扩散

Corgi 是一种新的文本图像生成方法，基于改进的扩散模型，可以有效地将输入文本转化为图像嵌入向量，与 DALL-E 2 相比，Corgi 在效率和效果上均表现更好，同时还支持半监督无语言训练。

Nov, 2022

基於預訓練多視圖擴散模型的扎實可組件化且多樣性的文本至三維

本文提出了一种名为 Grounded-Dreamer 的有效两阶段方法，通过使用预训练的多视角扩散模型，在准确遵循复杂的、构成性的文本提示的同时实现高保真度，生成能够准确遵循复杂、构成性文本提示的 3D 资产。

Apr, 2024

DreamFlow：通过近似概率流进行高质量的文字到三维图像生成

通过利用预训练的 T2I 扩散模型，借助预定时间步长安排，将文本到 3D 优化提升为多视角图像到图像转换问题，我们提出了一种新的优化算法和实用的三阶段粗到精的文本到 3D 优化框架 DreamFlow，实现快速生成高质量、高分辨率（1024x1024）的 3D 内容。

Mar, 2024

生成 AI 中的文本与图像扩散模型：一项调查

本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用；此外，介绍了文本条件下图像合成、文本引导的创意生成和图像编辑，并探讨了当前的挑战和未来方向。

Mar, 2023

StyleAvatar3D: 基于图像文本扩散模型实现高保真 3D 头像生成

本文提出了一种新的方法，结合使用预训练的图像文本扩散模型和基于生成对抗网络的 3D 生成网络，用于生成高质量，风格化的 3D 头像，并在视觉质量和多样性方面优于现有最先进的方法。

May, 2023

RenderDiffusion: 将文本生成作为图像生成

本篇论文提出了一种新的基于扩散模型的文本生成方法 —— extsc {RenderDiffusion}，它通过渲染目标文本为包含可视化语言内容的图形图像进行条件文本生成。该方法在四个条件文本生成任务和两类度量中都取得了比预训练语言模型更好的结果。

Apr, 2023