质量与数量:揭示百万高质量时尚设计文本到图像合成的图片
本文介绍了一种基于latent diffusion models的新型架构,通过多模态提示(文本、人体姿势和服装草图)引导生成人体中心时尚图像,同时扩展了两个已有的时尚数据集,证明了该方法的有效性。
Apr, 2023
该研究提出了使用基于能量的模型(EBMs)的扩散模型的等价性,建议组成多个概率分布的方法,并提出了一个通过 LLM 引导文本生成图像生成新时尚装配和虚拟试穿的流程,其结果表明使用 LLM 生成具有全球创意和文化多样性的时尚风格并减少偏见。
May, 2023
本文介绍了一种创新的样式引导扩散模型 (SGDiff),它结合了图像模态和预训练的文本到图像扩散模型,以促进创意时尚图像合成。它通过混合补充样式引导克服了文本到图像扩散模型的局限性,大大降低了训练成本,并解决了仅依靠文本输入来控制合成样式的困难。本文还引入了一个新的数据集 - SG-Fashion,专门为时尚图像合成应用设计,提供高分辨率图像和广泛的服装类别。通过全面的削减研究,我们考察了无分类器引导方法在各种条件下的应用,并验证了该模型在生成所需类别、产品属性和样式的时尚图像方面的有效性。本文的贡献包括一种新颖的无分类器引导多模态特征融合方法,为时尚图像合成应用提供了全面的数据集,对条件文本到图像合成进行了深入研究,并为将来在文本到图像合成领域的研究提供了有价值的见解。代码和数据集可在以下链接获取:https://github.com/taited/SGDiff。
Aug, 2023
通过介绍一个新的包含一百万高分辨率时尚图像和丰富结构化文本描述的数据集,本研究旨在推进基于文本的时尚合成和设计领域的研究,为使用先进的生成模型进行时尚合成和设计提供必要性。
Nov, 2023
提出了一种名为HieraFashDiff的新型时尚设计方法,通过使用共享的多阶段扩散模型,包含高层设计概念和低层服装属性的层次结构,允许设计师在高级提示后逐步交互式编辑以添加低层属性。在我们新建的层次时尚数据集上进行的全面实验表明,我们提出的方法优于其他最先进的竞争方法。
Jan, 2024
这篇研究论文介绍了一种新颖的生成性流程,通过使用潜在扩散模型改变了时尚设计过程,利用 ControlNet 和 LoRA 微调生成高质量图像,从文本和草图等多模态输入生成。我们结合草图数据,对包括 Multimodal Dress Code 和 VITON-HD 在内的最先进的虚拟试穿数据集进行了整合和增强。通过使用 FID、CLIP 评分和 KID 等指标进行评估,我们的模型明显优于传统稳定扩散模型。结果不仅突显了我们模型在生成符合时尚要求的输出方面的效果,也凸显了扩散模型在改革时尚设计工作流程中的潜力。这项研究为时尚设计和表达领域提供了更具互动性、个性化和技术丰富的方法,弥合了创意愿景与实际应用之间的差距。
Apr, 2024
DiCTI是一种基于扩散的服装设计工具,它利用输入的文本描述自动生成多个高分辨率、逼真的服装设计图片,并通过全面的实验和用户评分展示了其在生成高质量图片和服装设计方面的优势。
Jul, 2024
本研究解决了当前时尚图像编辑技术在准确识别编辑区域和保留服装纹理细节方面的不足。我们提出了一种基于潜在扩散模型的新架构DPDEdit,通过结合文本提示、区域掩码、人体姿势图像和服装纹理图像,能够精确定位编辑区域并转移纹理细节。实验结果表明,DPDEdit在图像保真度和与多模态输入的一致性方面优于现有最先进的方法。
Sep, 2024
本研究解决了个性化时尚需求与AI驱动设计之间缺乏综合数据集的问题。通过利用生成模型,自动构建了针对各种场合、风格和体型的时尚图像数据集,提供高美学质量的个性化服装。研究显示,专家知识在评估AI生成艺术数据集的重要性上具有显著影响。
Sep, 2024
该研究针对个性化时尚需求与AI设计之间缺乏全面数据集的问题,提出了一种利用生成模型自动构建时尚图像数据集的新方法。研究发现,通过不同的大型语言模型和提示策略,可以为用户提供高质量的个性化服装推荐,具有重要的指导意义,尤其是在艺术AI生成数据集的评估中强调了专家知识的重要性。
Sep, 2024