ST-LDM：现实图像中基于文本引导的物体生成的通用框架

Mar, 2024

ST-LDM：现实图像中基于文本引导的物体生成的通用框架

ST-LDM: A Universal Framework for Text-Grounded Object Generation in Real Images

Xiangtian Xue, Jiasong Wu, Youyong Kong, Lotfi Senhadji, Huazhong Shu

TL;DR我们提出了一种称为文本引导对象生成（TOG）的新型图像编辑场景，即在实际图像中通过文本描述在空间上生成一个新的对象。我们的模型基于 Swin-Transformer，具有全局感知自编码器和适应性压缩尺度以及分层视觉特征，用于生成下一个去噪过程的区域导向。通过引入可变形特征对齐来在融合多尺度视觉和语言信息的基础上层次性地优化空间定位，我们克服了传统注意机制只关注现有视觉特征的局限性。广泛的实验证明我们的模型在提高注意机制的定位能力的同时保留了扩散模型固有的生成能力。

Abstract

We present a novel image editing scenario termed Text-grounded Object Generation (TOG), defined as generating a new object in the real image spatially conditioned by textual descriptions. Existing diffusion models exhibit limitations of →

text-grounded object generation diffusion models spatial perception linguistic information swin-transformer

发现论文，激发创造

IT3D：通过显式视图合成改进的文本生成 3D 方法

利用多视角图像和 Diffusion-GAN 方法在 Text-to-3D 技术中生成高质量图像。

Aug, 2023

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022

软化潜向下的渐进文本到图像扩散

通过创新性的渐进综合和编辑操作，该论文引入了一种系统地将实体合并到目标图像中，并确保它们在每个顺序步骤中遵守空间和关系约束的方法。

Sep, 2023

超越生成：利用文本至图像模型进行对象检测和分割

通过使用文本到图像合成框架（如 DALL-E、稳定扩散等），我们提出了一种新的范式，以自动产生具有准确标签的训练数据。该方法将训练数据生成分解为前景物体生成和上下文一致的背景生成部分，并演示了在五个物体检测和分割数据集上使用我们方法生成的合成数据用于训练可以产生与使用真实数据训练的模型性能相媲美甚至更好的目标检测器。

Sep, 2023

定位再生成：通过边界框桥接视觉和语言进行场景文本 VQA

提出了一个用于场景文本视觉问答的多模态框架，采用 “先定位再生成” 的范式，将空间边界框作为连接文本和视觉模态的桥梁，通过预先训练的语言模型增强绝对准确率。

Apr, 2023

LLM 蓝图：通过复杂和详细的提示实现文本生成图像

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础，该模型通过两个阶段的操作实现，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性，从而在生成复杂的场景时展现出比传统扩散模型更好的召回率，经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

Oct, 2023

掌握文本到图像扩散：多模态 LLM 的重新字幕、规划和生成

提出一种全新的基于训练自由的文本到图像生成 / 编辑框架 RPG，该框架利用多模态 LLMs 的强大联想推理能力，提高了文本到图像扩散模型的组合性，并在多类别对象组合和文本 - 图像语义对齐方面优于 DALL-E 3 和 SDXL 等最先进的文本到图像扩散模型。

Jan, 2024

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法，包括两个阶段：第一阶段使用大型语言模型生成场景布局；第二阶段使用一个新的控制器，来生成与布局条件相符的图像。实验结果表明，该方法能更准确地生成需要语言和空间推理的图像。

May, 2023

创造你的世界：终身文本生成图像

通过 L2DM 框架，本文研究了文本到图像生成模型中的知识遗忘和语义忽视问题，通过任务感知内存增强模块、弹性概念精馏模块、概念关注艺术家模块和正交关注模块，生成更准确、更忠实的图像。

Sep, 2023

面向语言的图像传输的语义潜空间表示

基于语言的语义通信框架通过语言 - 图像编码和图像 - 语言解码，以及潜在扩散模型，实现了在嘈杂通信渠道中以较高的感知相似度重建预期图像的能力。

May, 2024