MULAN:用于可控文本到图像生成的多层注释数据集
通过对预先训练在多个数据集上的模型进行分析,本文探讨和分析了StyleGAN2的潜在样式空间,发现StyleSpace的通道式样式参数空间显著比前人的其他中间潜变空间更具解开性,提出了一种通过StyleSpace控制实现更好的视觉属性解开性的方法,最终展示了应用StyleSpace控制实现对真实图像的操作,为通过简单而直观的接口实现具有语义意义的、良好解开的图像操作铺平了道路。
Nov, 2020
StyleFusion是一种基于StyleGAN的新型映射架构,可以将多个潜在代码融合成一个风格代码,从而得到可以精细控制每个生成图像区域的去耦合表示,同时可实现语义感知的跨图像区域混合,对于用户的兴趣区域提供更精准的编辑限制。
Jul, 2021
利用高级语义,通过视觉-语言模型建立文本与图像信号之间的粗粒度关联机制,并在变换器网络中嵌入仿射融合单元以在特征级别上融合文本和图像模态,提出了一种以文本为导向的融合方法,并释放了一个文本注释的图像融合数据集IVT来促进其实施和在研究社区的采用。大量实验证明我们的方法(TextFusion)在传统的基于外观的融合方法上始终表现优异。
Dec, 2023
PanGu-Draw是一种资源高效的潜在扩散模型,通过时间解耦训练策略和合作扩散算法,实现了高效的文本到图像合成和多控制图像生成。
Dec, 2023
通过渐进式多对象生成、规划和反馈控制,我们开发了一种无需训练的多模态语言模型代理(MuLan),以解决现有文本到图像模型在处理多对象、对象空间位置、相对大小、重叠和属性绑定方面的困难。
Feb, 2024
我们提出了Zero-Painter,这是一个针对布局条件下的文本到图像合成的新型无需训练的框架,有助于从文本提示中创建细节丰富且可控的图像。我们的方法利用物体掩码和个别描述以及全局文本提示来生成高保真度的图像。Zero-Painter采用了一个两阶段过程,其中包括我们的新型Prompt-Adjusted Cross-Attention (PACA)和Region-Grouped Cross-Attention (ReGCA)块,确保生成的对象与文本提示和掩码形状精确对齐。我们广泛的实验表明,Zero-Painter在保留文本细节和符合掩码形状方面超过了当前的最先进方法。
Jun, 2024
通过引入一种基于扩散的新框架,本研究解决了现有文本生成图像模型在生成图像时与输入文本不一致的问题,通过对不一致现象进行细致分析和分类,并利用先进的语言模型提取对象、构建知识图谱,结合图像生成模型进行了准确一致的图像生成实验。
Jun, 2024
本研究聚焦于改进现有的文本到图像生成技术,提出Lumina-mGPT模型,利用多模态生成预训练(mGPT)进行灵活的照片级真实感图像生成。我们的主要发现表明,使用简单的解码器变换器与高质量图像-文本对联合微调,可以在各个分辨率下实现高审美图像合成,并保持广泛的多模态能力。
Aug, 2024
本研究针对现有图像生成模型无法有效生成具有不规则形状和透明度的 RGBA 图像的问题,提出了一种无需额外计算资源的全自动生成方法。通过优化预训练扩散转换模型的推理过程,提升了生成图像的质量和可控性,显著提高了设计师的生产力,并推动创意产业的创新与发展。
Aug, 2024