质量与数量:揭示百万高质量时尚设计文本到图像合成的图片
通过介绍一个新的包含一百万高分辨率时尚图像和丰富结构化文本描述的数据集,本研究旨在推进基于文本的时尚合成和设计领域的研究,为使用先进的生成模型进行时尚合成和设计提供必要性。
Nov, 2023
本文介绍了一个由职业造型师提供的 293,008 张高清时尚图像和物品说明组成的数据集。我们在高分辨率图像生成和给定文本条件下的图像生成方面提供基准结果,并概述了一个基于此数据集的挑战的细节。
Jun, 2018
该论文介绍了 Fashion IQ 数据集,支持互动式时装图像检索的研究和进展,提供了人工生成的注释、现实世界的产品描述和派生的视觉属性标签等,通过基于 transformer 的用户模拟器和交互式图像检索器提高对话式图像检索的效果,鼓励进一步开发更自然和适用于现实世界的购物助手。
May, 2019
本研究使用 InFashAIv1 和 DeepFashion 数据集,使用 Show and Tell 算法生成时尚图片的描述,取得更好的效果,并发现对于非洲风格的时尚图片,联合训练提高了图像描述质量,表明西方风格数据的迁移学习是可行的,释放了 InFashAIv1 数据集以促进更多包容性工作。
Jun, 2021
这篇研究论文介绍了一种新颖的生成性流程,通过使用潜在扩散模型改变了时尚设计过程,利用 ControlNet 和 LoRA 微调生成高质量图像,从文本和草图等多模态输入生成。我们结合草图数据,对包括 Multimodal Dress Code 和 VITON-HD 在内的最先进的虚拟试穿数据集进行了整合和增强。通过使用 FID、CLIP 评分和 KID 等指标进行评估,我们的模型明显优于传统稳定扩散模型。结果不仅突显了我们模型在生成符合时尚要求的输出方面的效果,也凸显了扩散模型在改革时尚设计工作流程中的潜力。这项研究为时尚设计和表达领域提供了更具互动性、个性化和技术丰富的方法,弥合了创意愿景与实际应用之间的差距。
Apr, 2024
利用人工智能为时尚推荐系统提供细粒度的视觉解释,自动为顾客上传的图像生成有意义的描述,引导从全球时尚产品目录中检索出符合视觉特征的类似替代品,进而实现个性化的时尚推荐,并在超过 100,000 张已分类的时尚照片数据集上进行训练和评估,物体检测模型的 F1 分数为 0.97,展示了优化的准确时尚物体识别能力,这个视觉感知系统代表了个性化时尚推荐中的重要进展。
Nov, 2023
本文介绍了一种基于 latent diffusion models 的新型架构,通过多模态提示(文本、人体姿势和服装草图)引导生成人体中心时尚图像,同时扩展了两个已有的时尚数据集,证明了该方法的有效性。
Apr, 2023
该论文探讨了多模态条件下的时尚图像编辑任务,提出了一种基于多模态指导的生成方法,利用时尚设计的文本、人体姿势、服装草图和面料纹理等多模态提示生成以人为中心的时尚图像。实验证明了提出方法在现实感和一致性方面的有效性。
Mar, 2024
我们在本文中提出了一种经验研究,介绍了一种用于文本到图像(T2I)生成模型的细致评估框架,应用于人类图像合成。我们的框架将评估分为两个不同的组别:第一组主要关注美学和真实性等图像质量,第二组则检验文本条件,包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型,评估生成图像的视觉吸引力,并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性,而公平性分析则揭示了模型输出中的偏见,特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础,但这种双重面向的方法被设计成具有灵活性,可以应用于其他形式的图像生成,增强我们对生成模型的理解,并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码,用于评估生成模型的数据以及标注有有缺陷区域的数据集。
Mar, 2024
Deep Fashion3D 是迄今为止最大的 3D 服装模型集合,包含 2078 个模型和丰富的注释信息,并引入了一种新的单视角服装重建方法。
Mar, 2020