使用LLMs和潜在扩散模型进行互动式时尚内容生成
本文介绍了一种基于latent diffusion models的新型架构,通过多模态提示(文本、人体姿势和服装草图)引导生成人体中心时尚图像,同时扩展了两个已有的时尚数据集,证明了该方法的有效性。
Apr, 2023
本文介绍了一种创新的样式引导扩散模型 (SGDiff),它结合了图像模态和预训练的文本到图像扩散模型,以促进创意时尚图像合成。它通过混合补充样式引导克服了文本到图像扩散模型的局限性,大大降低了训练成本,并解决了仅依靠文本输入来控制合成样式的困难。本文还引入了一个新的数据集 - SG-Fashion,专门为时尚图像合成应用设计,提供高分辨率图像和广泛的服装类别。通过全面的削减研究,我们考察了无分类器引导方法在各种条件下的应用,并验证了该模型在生成所需类别、产品属性和样式的时尚图像方面的有效性。本文的贡献包括一种新颖的无分类器引导多模态特征融合方法,为时尚图像合成应用提供了全面的数据集,对条件文本到图像合成进行了深入研究,并为将来在文本到图像合成领域的研究提供了有价值的见解。代码和数据集可在以下链接获取:https://github.com/taited/SGDiff。
Aug, 2023
我们的研究介绍了一种名为FashionFlow的新型图像-视频生成器。通过利用扩散模型,我们能够从静止图像中创建短视频。我们的方法涉及开发和连接与扩散模型相关的组件,这使得我们的工作与众不同。这些组件包括使用伪3D卷积层高效生成视频。VAE和CLIP编码器从静止图像中捕获重要特征以影响扩散模型。我们的研究展示了成功合成时尚视频,展示了模特从多个角度展示服装的合身和外观。我们的发现对于改进和提升在线时尚行业的购物体验具有巨大潜力。
Sep, 2023
AI与时尚设计的融合已成为一个前景光明的研究领域,本论文提出了首个Fashion-Diffusion数据集,该数据集包含超过一百万高质量的时尚图片和详细的文本描述,并提供了多个用于评估时尚设计模型性能的数据集,推动了AI驱动的时尚设计领域的标准化和未来研究的进展。
Nov, 2023
提出了一种名为HieraFashDiff的新型时尚设计方法,通过使用共享的多阶段扩散模型,包含高层设计概念和低层服装属性的层次结构,允许设计师在高级提示后逐步交互式编辑以添加低层属性。在我们新建的层次时尚数据集上进行的全面实验表明,我们提出的方法优于其他最先进的竞争方法。
Jan, 2024
该论文探讨了多模态条件下的时尚图像编辑任务,提出了一种基于多模态指导的生成方法,利用时尚设计的文本、人体姿势、服装草图和面料纹理等多模态提示生成以人为中心的时尚图像。实验证明了提出方法在现实感和一致性方面的有效性。
Mar, 2024
这篇研究论文介绍了一种新颖的生成性流程,通过使用潜在扩散模型改变了时尚设计过程,利用 ControlNet 和 LoRA 微调生成高质量图像,从文本和草图等多模态输入生成。我们结合草图数据,对包括 Multimodal Dress Code 和 VITON-HD 在内的最先进的虚拟试穿数据集进行了整合和增强。通过使用 FID、CLIP 评分和 KID 等指标进行评估,我们的模型明显优于传统稳定扩散模型。结果不仅突显了我们模型在生成符合时尚要求的输出方面的效果,也凸显了扩散模型在改革时尚设计工作流程中的潜力。这项研究为时尚设计和表达领域提供了更具互动性、个性化和技术丰富的方法,弥合了创意愿景与实际应用之间的差距。
Apr, 2024
DiCTI是一种基于扩散的服装设计工具,它利用输入的文本描述自动生成多个高分辨率、逼真的服装设计图片,并通过全面的实验和用户评分展示了其在生成高质量图片和服装设计方面的优势。
Jul, 2024
本研究针对合成多件服装自由组合图像这一未被探索的任务,提出了一种基于潜在扩散模型的统一框架。通过开发可训练的服装编码器和条件生成的多服装特征融合方法,显著提高了服装信息间的协调性,从而实现了自然外观的定制模型生成,推动了多服装组合图像生成的新前景。
Aug, 2024
本研究解决了当前时尚图像编辑技术在准确识别编辑区域和保留服装纹理细节方面的不足。我们提出了一种基于潜在扩散模型的新架构DPDEdit,通过结合文本提示、区域掩码、人体姿势图像和服装纹理图像,能够精确定位编辑区域并转移纹理细节。实验结果表明,DPDEdit在图像保真度和与多模态输入的一致性方面优于现有最先进的方法。
Sep, 2024