MULAN：用于可控文本到图像生成的多层注释数据集

Apr, 2024

MULAN：用于可控文本到图像生成的多层注释数据集

MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation

Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang, Fei Chen, Steven McDonagh...

TL;DR将一幅单眼RGB图像分解成为一个包含背景和独立实例的RGBA层叠，并重建遮挡区域，为高质量图像提供实例分解和遮挡信息的第一个照片逼真资源，为文本到图像生成AI研究开辟新的可能性。

Abstract

text-to-image generation has achieved astonishing results, yet precise spatial controllability and prompt fidelity remain highly challenging. This limitation is typically addressed through cumbersome prompt engin

发现论文，激发创造

StyleSpace分析：StyleGAN图像生成的解耦控制

通过对预先训练在多个数据集上的模型进行分析，本文探讨和分析了StyleGAN2的潜在样式空间，发现StyleSpace的通道式样式参数空间显著比前人的其他中间潜变空间更具解开性，提出了一种通过StyleSpace控制实现更好的视觉属性解开性的方法，最终展示了应用StyleSpace控制实现对真实图像的操作，为通过简单而直观的接口实现具有语义意义的、良好解开的图像操作铺平了道路。

Nov, 2020

对抗性文本到图像合成：综述

该论文综述了生成对抗网络在文本到图像合成方面的发展以及面临的挑战，提出了一些研究方向，包括评估指标、数据集和模型架构设计等方面的改进。

Jan, 2021

StyleFusion：用于解开空间分段的生成模型

StyleFusion是一种基于StyleGAN的新型映射架构，可以将多个潜在代码融合成一个风格代码，从而得到可以精细控制每个生成图像区域的去耦合表示，同时可实现语义感知的跨图像区域混合，对于用户的兴趣区域提供更精准的编辑限制。

Jul, 2021

TextFusion: 揭秘文本语义在可控图像融合中的力量

利用高级语义，通过视觉-语言模型建立文本与图像信号之间的粗粒度关联机制，并在变换器网络中嵌入仿射融合单元以在特征级别上融合文本和图像模态，提出了一种以文本为导向的融合方法，并释放了一个文本注释的图像融合数据集IVT来促进其实施和在研究社区的采用。大量实验证明我们的方法（TextFusion）在传统的基于外观的融合方法上始终表现优异。

Dec, 2023

PanGu-Draw: 提高资源效率的文本到图像合成技术，采用时间解耦训练和可重复使用的合作扩散

PanGu-Draw是一种资源高效的潜在扩散模型，通过时间解耦训练策略和合作扩散算法，实现了高效的文本到图像合成和多控制图像生成。

Dec, 2023

MuLan: 多模态-LLM进化多对象扩散智能体

通过渐进式多对象生成、规划和反馈控制，我们开发了一种无需训练的多模态语言模型代理（MuLan），以解决现有文本到图像模型在处理多对象、对象空间位置、相对大小、重叠和属性绑定方面的困难。

Feb, 2024

Zero-Painter: 无需训练的文本-图像合成布局控制

我们提出了Zero-Painter，这是一个针对布局条件下的文本到图像合成的新型无需训练的框架，有助于从文本提示中创建细节丰富且可控的图像。我们的方法利用物体掩码和个别描述以及全局文本提示来生成高保真度的图像。Zero-Painter采用了一个两阶段过程，其中包括我们的新型Prompt-Adjusted Cross-Attention (PACA)和Region-Grouped Cross-Attention (ReGCA)块，确保生成的对象与文本提示和掩码形状精确对齐。我们广泛的实验表明，Zero-Painter在保留文本细节和符合掩码形状方面超过了当前的最先进方法。

Jun, 2024

一种统一的框架用于整合LLMs、知识图谱和可控扩散模型的一致性图像生成（PCIG）

通过引入一种基于扩散的新框架，本研究解决了现有文本生成图像模型在生成图像时与输入文本不一致的问题，通过对不一致现象进行细致分析和分类，并利用先进的语言模型提取对象、构建知识图谱，结合图像生成模型进行了准确一致的图像生成实验。

Jun, 2024

Lumina-mGPT：通过多模态生成预训练实现灵活的照片级真实感文本到图像生成

本研究聚焦于改进现有的文本到图像生成技术，提出Lumina-mGPT模型，利用多模态生成预训练（mGPT）进行灵活的照片级真实感图像生成。我们的主要发现表明，使用简单的解码器变换器与高质量图像-文本对联合微调，可以在各个分辨率下实现高审美图像合成，并保持广泛的多模态能力。

Aug, 2024

Alfie：以无成本民主化 RGBA 图像生成

本研究针对现有图像生成模型无法有效生成具有不规则形状和透明度的 RGBA 图像的问题，提出了一种无需额外计算资源的全自动生成方法。通过优化预训练扩散转换模型的推理过程，提升了生成图像的质量和可控性，显著提高了设计师的生产力，并推动创意产业的创新与发展。

Aug, 2024