ARTIST: 复杂文本图像生成的解耦改进

Jun, 2024

ARTIST: 复杂文本图像生成的解耦改进

ARTIST: Improving the Generation of Text-rich Images by Disentanglement

Jianyi Zhang, Yufan Zhou, Jiuxiang Gu, Curtis Wigington, Tong Yu...

TL;DR通过引入一个专门关注文本学习的新框架 ARTIST，有助于提升扩散模型在生成富文本图像时的文本渲染能力，并利用预训练的大型语言模型来解释用户意图，提高生成质量。在 MARIO-Eval 基准测试上的实证结果表明，该方法在各种度量标准上的性能提升达到了 15%。

Abstract

diffusion models have demonstrated exceptional capabilities in generating a broad spectrum of visual content, yet their proficiency in rendering text is still limited: they often generate inaccurate characters or words that fail to blend well with the underlying image. To address these

diffusion models text rendering textual diffusion model pretrained language models image generation

发现论文，激发创造

YaART：又一种 ART 渲染技术

YaART 是一种有效且高保真度的产业级文本到图像扩散模型，通过强化学习从人类反馈中对齐到人类偏好。在开发 YaART 过程中，我们特别关注模型和训练数据集大小的选择，这些方面在文本到图像扩散模型中以前没有系统地进行研究。特别是，我们全面分析了这些选择如何影响训练过程的效率和生成图像的质量，这在实践中非常重要。此外，我们证明了在高质量图像的较小数据集上训练的模型能够成功与在较大数据集上训练的模型竞争，建立了更高效的扩散模型训练场景。从质量的角度来看，YaART 始终优于许多现有的最先进模型。

Apr, 2024

TextDiffuser：扩散模型作为文本画家

为解决扩散模型在渲染准确、连贯文本方面的问题，我们介绍了 TextDiffuser，并提供了第一个带有 OCR 标注的大规模图像文本数据集 MARIO-10M，进行了实验和用户研究，表明 TextDiffuser 可以仅基于文本提示或与文本模板图像一起创建高质量的文本图像，并进行文本修复来重构不完整的带文本图像。完成的代码、模型和数据集可在官网 https://aka.ms/textdiffuser 获得。

May, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

ART・V: 基于扩散模型的自回归文本到视频生成

ART・V 是一个高效的自回归视频生成框架，使用扩散模型逐帧生成视频，并通过简化连续帧之间的运动来避免建模复杂的远程运动，同时保留预训练图像扩散模型的高保真生成能力。通过结合文本、图像等多种提示，ART・V 可以生成任意长度的视频，具有高度的多功能性和灵活性。通过引入掩蔽扩散模型和使用初始帧作为条件，ART・V 进一步提升了生成一致性和生成的视觉质量，能够在短时间内生成带有自然运动、丰富细节和高美感的视频，并支持多个文本提示组合成长视频的应用。

Nov, 2023

StyleAvatar3D: 基于图像文本扩散模型实现高保真 3D 头像生成

本文提出了一种新的方法，结合使用预训练的图像文本扩散模型和基于生成对抗网络的 3D 生成网络，用于生成高质量，风格化的 3D 头像，并在视觉质量和多样性方面优于现有最先进的方法。

May, 2023

RenderDiffusion: 将文本生成作为图像生成

本篇论文提出了一种新的基于扩散模型的文本生成方法 —— extsc {RenderDiffusion}，它通过渲染目标文本为包含可视化语言内容的图形图像进行条件文本生成。该方法在四个条件文本生成任务和两类度量中都取得了比预训练语言模型更好的结果。

Apr, 2023

DreamArtist: 通过对比度提示调整实现可控的一次性文本到图像生成

DreamArtist 是一种简单有效的方法，采用正负 prompt-tuning 学习策略，在保持生成可控性的同时生成多样化高质量图片，相比现有方法具有更出色的生成表现。

Nov, 2022

基于扩散模型的个性化文本图像生成

本文旨在提高高质量图像的合成与精确文字自定义，为图像生成模型的进步做出贡献。我们提出的方法名为 CustomText，利用预训练的 TextDiffuser 模型实现对字体颜色、背景和类型的控制。为了解决小字体渲染的挑战，我们训练了 ControlNet 模型用于一致性解码，从而显著提高了文字生成性能。我们通过与先前的文本图像生成方法在公开可用的 CTW-1500 数据集和自编数据集上的比较评估了 CustomText 的性能，并展示出优越的结果。

May, 2024

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024