基于场景的人类先验文本到图像生成技术

Mar, 2022

基于场景的人类先验文本到图像生成技术

Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors

Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh...

TL;DR提出了一种基于场景控制、区域特征和转换器的文本生成图像方法，实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果，并实现了场景编辑、文本编辑和故事插图生成等新功能。

Abstract

Recent text-to-image generation methods provide a simple yet exciting conversion capability between text and image domains. While these methods have incrementally improved the generated image fidelity and text relevancy, several pivotal gaps remain unanswered, limiting applicability an

text-to-image generation scene control transformer fid image resolution

发现论文，激发创造

基于详细人类中心文本描述的大规模场景合成

DetText2Scene 是一种新颖的文本驱动大规模图像合成方法，具有高度的忠实度、可控性和自然性，在全局范围内实现了对详细人类中心化文本描述的合成。

Nov, 2023

Text2Scene: 从文本描述生成组合场景

本文提出了 Text2Scene 模型，该模型从自然语言描述中生成各种形式的组成场景表示。与最近的其他工作不同，Text2Scene 不使用生成对抗网络（GANs），而是通过依次生成对象和它们的属性来学习生成场景，从而实现生成各种形式的场景表示，包括卡通样式的场景、与真实图像相对应的对象布局和合成图像。该方法不仅能够胜任与基于 GAN 的最先进方法相竞争的工作，而且其结果可以被解释。

Sep, 2018

ComFusion: 多个特定场景中的个性化主题生成单图像

最近在个性化文本到图像（T2I）扩散模型方面的进展表明，使用有限数量的用户提供的示例生成基于个性化视觉概念的图像的能力已被证明。然而，这些模型在维护高视觉保真度方面经常遇到困难，特别是在根据文本输入进行场景操作时。为了解决这个问题，我们引入了 ComFusion，这是一种新颖的方法，利用预训练模型生成几个用户提供的主题图像和预定义文本场景的组合，有效地将视觉主题实例与文本特定场景融合，从而在多样的场景中生成高保真度的实例。ComFusion 整合了一种类别场景先验保留正则化方法，利用预训练模型的组合主题和场景特定知识，增强了生成的保真度。此外，ComFusion 使用粗糙生成的图像，确保它们与实例图像和场景文本有效对齐。因此，ComFusion 在捕捉主题的本质和保持场景保真度之间保持了一个微妙的平衡。对 T2I 个性化中的各种基线进行了广泛评估，证明了 ComFusion 在定性和定量上的优越性。

Feb, 2024

SpaText: 控制型图像生成的空间文本表示

该论文提出了一种使用开放词汇场景控制的文本到图像生成方法 SpaText，基于 CLIP 的空间 - 文本表示方法，通过支持自由形式的自然语言描述的感兴趣区域的分割图来控制场景的布局和不同区域对象的形状。此外，该论文还提供了几种自动评估指标，并使用它们以及 FID 指标和用户研究来评估其方法，在具有自由形式文本场景控制的图像生成方面实现了最先进的结果。

Nov, 2022

基于 Transformer 的场景文本识别

本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法，只需要空间注意力而不需要矫正图像，仅使用卷积特征图作为单词嵌入输入到 transformer 中，并在大规模实验中取得了显著的优越性能。

Mar, 2020

使用场景图实现交互式图像生成

本文提出了一种基于场景图的递增式图像生成模型，该模型通过使用递归神经网络、图卷积网络以及生成对抗网络来生成逼真的多对象图像，实验结果表明其在生成逐步增长场景图的情况下比其他方法更优。

May, 2019

低资源语言的弱监督场景文本生成

本文提出了一种基于弱监督学习的场景文本生成方法，通过跨语言生成，将场景文本图片的内容和样式特征分离，并引入整合式注意力模块和预先训练的字体分类器以保证生成图片的完整内容结构以及填补不同语言文本风格之间的差距，实验结果显示，该方法显著提高了场景文本识别精度。

Jun, 2023

从一张图像中提取多个概念

本文提出了一种文本场景分解任务，并介绍了一种基于掩模增强的输入方法和一个新颖的两阶段自定义过程，用于针对生成图像中的特定概念进行微调，并使用多种自动度量标准和用户研究，验证了该方法的有效性。

May, 2023

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

BeyondScene: 基于预训练扩散的高分辨率人本场景生成

利用现有的预训练扩散模型，BeyondScene 提出了一种新的框架来生成精美的分辨率更高（超过 8K）的以人为中心的场景，以异常的文字 - 图像对应关系和自然度，克服了现有方法在人为中心场景生成方面的限制，并且在与详细的文本描述和自然度的一致性上超越了现有的方法。

Apr, 2024