多阶段扩散模型的层次化时装设计
这篇研究论文介绍了一种新颖的生成性流程,通过使用潜在扩散模型改变了时尚设计过程,利用 ControlNet 和 LoRA 微调生成高质量图像,从文本和草图等多模态输入生成。我们结合草图数据,对包括 Multimodal Dress Code 和 VITON-HD 在内的最先进的虚拟试穿数据集进行了整合和增强。通过使用 FID、CLIP 评分和 KID 等指标进行评估,我们的模型明显优于传统稳定扩散模型。结果不仅突显了我们模型在生成符合时尚要求的输出方面的效果,也凸显了扩散模型在改革时尚设计工作流程中的潜力。这项研究为时尚设计和表达领域提供了更具互动性、个性化和技术丰富的方法,弥合了创意愿景与实际应用之间的差距。
Apr, 2024
本文介绍了一种基于 latent diffusion models 的新型架构,通过多模态提示(文本、人体姿势和服装草图)引导生成人体中心时尚图像,同时扩展了两个已有的时尚数据集,证明了该方法的有效性。
Apr, 2023
我们的研究介绍了一种名为 FashionFlow 的新型图像 - 视频生成器。通过利用扩散模型,我们能够从静止图像中创建短视频。我们的方法涉及开发和连接与扩散模型相关的组件,这使得我们的工作与众不同。这些组件包括使用伪 3D 卷积层高效生成视频。VAE 和 CLIP 编码器从静止图像中捕获重要特征以影响扩散模型。我们的研究展示了成功合成时尚视频,展示了模特从多个角度展示服装的合身和外观。我们的发现对于改进和提升在线时尚行业的购物体验具有巨大潜力。
Sep, 2023
该论文探讨了多模态条件下的时尚图像编辑任务,提出了一种基于多模态指导的生成方法,利用时尚设计的文本、人体姿势、服装草图和面料纹理等多模态提示生成以人为中心的时尚图像。实验证明了提出方法在现实感和一致性方面的有效性。
Mar, 2024
本文介绍了一种创新的样式引导扩散模型 (SGDiff),它结合了图像模态和预训练的文本到图像扩散模型,以促进创意时尚图像合成。它通过混合补充样式引导克服了文本到图像扩散模型的局限性,大大降低了训练成本,并解决了仅依靠文本输入来控制合成样式的困难。本文还引入了一个新的数据集 - SG-Fashion,专门为时尚图像合成应用设计,提供高分辨率图像和广泛的服装类别。通过全面的削减研究,我们考察了无分类器引导方法在各种条件下的应用,并验证了该模型在生成所需类别、产品属性和样式的时尚图像方面的有效性。本文的贡献包括一种新颖的无分类器引导多模态特征融合方法,为时尚图像合成应用提供了全面的数据集,对条件文本到图像合成进行了深入研究,并为将来在文本到图像合成领域的研究提供了有价值的见解。代码和数据集可在以下链接获取:https://github.com/taited/SGDiff。
Aug, 2023
本文提出了一种统一的两阶段框架 ——M6-Fashion,将样式先验知识和多模态控制的灵活性融合在一起,实现时尚设计中的实用 AI 辅助,取得了优秀的成果。
May, 2022
通过 DiffCloth 实现的扩散模型结构对齐的跨模态服装合成和操作方法,在时尚设计领域具有灵活的组合性,支持通过替换文本提示中的属性短语实现结果的灵活操作,并且利用固有的结构信息产生具有区域一致性的最新服装合成结果。
Aug, 2023
AI 与时尚设计的融合已成为一个前景光明的研究领域,本论文提出了首个 Fashion-Diffusion 数据集,该数据集包含超过一百万高质量的时尚图片和详细的文本描述,并提供了多个用于评估时尚设计模型性能的数据集,推动了 AI 驱动的时尚设计领域的标准化和未来研究的进展。
Nov, 2023
该研究提出了使用基于能量的模型(EBMs)的扩散模型的等价性,建议组成多个概率分布的方法,并提出了一个通过 LLM 引导文本生成图像生成新时尚装配和虚拟试穿的流程,其结果表明使用 LLM 生成具有全球创意和文化多样性的时尚风格并减少偏见。
May, 2023
本研究通过一种端到端的架构,将层次化注释的概念直接嵌入到模型中,以实现对时尚图像的视觉识别,并针对大约 350k 时尚产品图像的数据集进行了多级结构分类的性能优化和演示。
Jun, 2018