DPDEdit:多模态时尚图像编辑的细节保留扩散模型
本文介绍了一种基于latent diffusion models的新型架构,通过多模态提示(文本、人体姿势和服装草图)引导生成人体中心时尚图像,同时扩展了两个已有的时尚数据集,证明了该方法的有效性。
Apr, 2023
该研究提出了使用基于能量的模型(EBMs)的扩散模型的等价性,建议组成多个概率分布的方法,并提出了一个通过 LLM 引导文本生成图像生成新时尚装配和虚拟试穿的流程,其结果表明使用 LLM 生成具有全球创意和文化多样性的时尚风格并减少偏见。
May, 2023
本文介绍了一种创新的样式引导扩散模型 (SGDiff),它结合了图像模态和预训练的文本到图像扩散模型,以促进创意时尚图像合成。它通过混合补充样式引导克服了文本到图像扩散模型的局限性,大大降低了训练成本,并解决了仅依靠文本输入来控制合成样式的困难。本文还引入了一个新的数据集 - SG-Fashion,专门为时尚图像合成应用设计,提供高分辨率图像和广泛的服装类别。通过全面的削减研究,我们考察了无分类器引导方法在各种条件下的应用,并验证了该模型在生成所需类别、产品属性和样式的时尚图像方面的有效性。本文的贡献包括一种新颖的无分类器引导多模态特征融合方法,为时尚图像合成应用提供了全面的数据集,对条件文本到图像合成进行了深入研究,并为将来在文本到图像合成领域的研究提供了有价值的见解。代码和数据集可在以下链接获取:https://github.com/taited/SGDiff。
Aug, 2023
提出了一种名为HieraFashDiff的新型时尚设计方法,通过使用共享的多阶段扩散模型,包含高层设计概念和低层服装属性的层次结构,允许设计师在高级提示后逐步交互式编辑以添加低层属性。在我们新建的层次时尚数据集上进行的全面实验表明,我们提出的方法优于其他最先进的竞争方法。
Jan, 2024
该论文探讨了多模态条件下的时尚图像编辑任务,提出了一种基于多模态指导的生成方法,利用时尚设计的文本、人体姿势、服装草图和面料纹理等多模态提示生成以人为中心的时尚图像。实验证明了提出方法在现实感和一致性方面的有效性。
Mar, 2024
这篇研究论文介绍了一种新颖的生成性流程,通过使用潜在扩散模型改变了时尚设计过程,利用 ControlNet 和 LoRA 微调生成高质量图像,从文本和草图等多模态输入生成。我们结合草图数据,对包括 Multimodal Dress Code 和 VITON-HD 在内的最先进的虚拟试穿数据集进行了整合和增强。通过使用 FID、CLIP 评分和 KID 等指标进行评估,我们的模型明显优于传统稳定扩散模型。结果不仅突显了我们模型在生成符合时尚要求的输出方面的效果,也凸显了扩散模型在改革时尚设计工作流程中的潜力。这项研究为时尚设计和表达领域提供了更具互动性、个性化和技术丰富的方法,弥合了创意愿景与实际应用之间的差距。
Apr, 2024
DiCTI是一种基于扩散的服装设计工具,它利用输入的文本描述自动生成多个高分辨率、逼真的服装设计图片,并通过全面的实验和用户评分展示了其在生成高质量图片和服装设计方面的优势。
Jul, 2024
本研究针对现有时尚图像编辑方法的灵活性不足及应用范围有限的问题,提出了一种无需辅助工具的整合框架。通过扩展数据集以涵盖更广泛的服装种类和复杂背景,并提出AnyDesign方法,用户可以便捷地输入人像及对应提示,实现高质量的时尚编辑,实验结果表明该方法超越了现有的文本引导时尚编辑技术。
Aug, 2024
本研究解决了现有时尚图像编辑方法缺乏灵活统一框架的问题,尤其是对服装类型的限制。提出的AnyDesign方法能够实现无掩码的多区域编辑,并引入了Fashion-Guidance Attention模块,以融合多样化的服装类型和特征。实验结果显示,该方法在时尚编辑质量上优于现有的文本引导编辑技术,具有重要的应用潜力。
Aug, 2024
本研究针对多模态服装图像编辑中收集真实图像数据集的难题,提出了一种新的方法ControlEdit,通过自监督学习实现服装图像的多模态引导局部修复。该方法通过扩展特征提取网络的通道,保持编辑前后的一致性,并设计了逆潜在损失函数,实现了对未编辑区域内容的柔性控制。实验结果表明,ControlEdit在定性和定量评估中均超越了基线算法。
Sep, 2024