时尚图像编辑的多模态条件化潜扩散模型
本文介绍了一种基于 latent diffusion models 的新型架构,通过多模态提示(文本、人体姿势和服装草图)引导生成人体中心时尚图像,同时扩展了两个已有的时尚数据集,证明了该方法的有效性。
Apr, 2023
这篇研究论文介绍了一种新颖的生成性流程,通过使用潜在扩散模型改变了时尚设计过程,利用 ControlNet 和 LoRA 微调生成高质量图像,从文本和草图等多模态输入生成。我们结合草图数据,对包括 Multimodal Dress Code 和 VITON-HD 在内的最先进的虚拟试穿数据集进行了整合和增强。通过使用 FID、CLIP 评分和 KID 等指标进行评估,我们的模型明显优于传统稳定扩散模型。结果不仅突显了我们模型在生成符合时尚要求的输出方面的效果,也凸显了扩散模型在改革时尚设计工作流程中的潜力。这项研究为时尚设计和表达领域提供了更具互动性、个性化和技术丰富的方法,弥合了创意愿景与实际应用之间的差距。
Apr, 2024
本文提出了一种统一的两阶段框架 ——M6-Fashion,将样式先验知识和多模态控制的灵活性融合在一起,实现时尚设计中的实用 AI 辅助,取得了优秀的成果。
May, 2022
本研究提出了一种改进的图像虚拟试穿的扩散模型(IDM-VTON),该模型通过使用高级语义和低级特征融合的方法,提高了服装的真实性,并生成了具有真实感的虚拟试穿图像。该研究还介绍了一种使用人物 - 服装图像对进行个性化定制的方法,并通过实验证明了该方法在保留服装细节和生成真实虚拟试穿图像方面的有效性。
Mar, 2024
本文提出了一种名为 Collaborative Diffusion 的模型,在不需要重新训练的情况下,利用多种单一模态扩展固有的单一模态扩散模型以实现多模态人脸生成和编辑。
Apr, 2023
该研究提出了使用基于能量的模型(EBMs)的扩散模型的等价性,建议组成多个概率分布的方法,并提出了一个通过 LLM 引导文本生成图像生成新时尚装配和虚拟试穿的流程,其结果表明使用 LLM 生成具有全球创意和文化多样性的时尚风格并减少偏见。
May, 2023
本文提出了一种新颖的端到端 3D 感知图像生成和编辑模型,通过纯噪声、文本和参考图像等多种条件输入,在 3D 生成对抗网络(GANs)的潜在空间中深入研究并提出解缠特性较好的生成策略,同时采用统一框架进行灵活的图像生成和编辑任务,实现多模态条件下的多样图像生成、属性编辑和风格迁移。广泛实验证明,该方法在图像生成和编辑方面在质量和数量上均优于替代方法。
Mar, 2024
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
提出了一种名为 HieraFashDiff 的新型时尚设计方法,通过使用共享的多阶段扩散模型,包含高层设计概念和低层服装属性的层次结构,允许设计师在高级提示后逐步交互式编辑以添加低层属性。在我们新建的层次时尚数据集上进行的全面实验表明,我们提出的方法优于其他最先进的竞争方法。
Jan, 2024