生成多样而且丰富的自然语言时尚评论

Jun, 2019

生成多样而且丰富的自然语言时尚评论

Generating Diverse and Informative Natural Language Fashion Feedback

Gil Sadeh, Lior Fritz, Gabi Shalev, Eduard Oks

TL;DR本文针对多模态视觉与语言任务，提出了一种将深度生成编码器 - 解码器模型结合视觉注意力和最大互信息技术生成自然语言时装反馈的方法，并在公共设备 Echo Look 上进行了应用。

Abstract

Recent advances in multi-modal vision and language tasks enable a new set of applications. In this paper, we consider the task of generating natural language fashion feedback on outfit images. We collect a unique

multi-modal vision natural language generation fashion feedback deep generative encoder-decoder models maximum mutual information

发现论文，激发创造

时尚智取：一个面向自然语言反馈检索图像的新数据集

该论文介绍了 Fashion IQ 数据集，支持互动式时装图像检索的研究和进展，提供了人工生成的注释、现实世界的产品描述和派生的视觉属性标签等，通过基于 transformer 的用户模拟器和交互式图像检索器提高对话式图像检索的效果，鼓励进一步开发更自然和适用于现实世界的购物助手。

May, 2019

神经时尚图片字幕生成：考虑数据多样性

本研究使用 InFashAIv1 和 DeepFashion 数据集，使用 Show and Tell 算法生成时尚图片的描述，取得更好的效果，并发现对于非洲风格的时尚图片，联合训练提高了图像描述质量，表明西方风格数据的迁移学习是可行的，释放了 InFashAIv1 数据集以促进更多包容性工作。

Jun, 2021

M6-Fashion：高保真多模态图像生成与编辑

本文提出了一种统一的两阶段框架 ——M6-Fashion，将样式先验知识和多模态控制的灵活性融合在一起，实现时尚设计中的实用 AI 辅助，取得了优秀的成果。

May, 2022

AI 增强的客户体验推荐系统：一种新颖的图像到文本方法

利用人工智能为时尚推荐系统提供细粒度的视觉解释，自动为顾客上传的图像生成有意义的描述，引导从全球时尚产品目录中检索出符合视觉特征的类似替代品，进而实现个性化的时尚推荐，并在超过 100,000 张已分类的时尚照片数据集上进行训练和评估，物体检测模型的 F1 分数为 0.97，展示了优化的准确时尚物体识别能力，这个视觉感知系统代表了个性化时尚推荐中的重要进展。

Nov, 2023

时尚字幕生成：基于语义奖励的准确描述生成

本文介绍了一种新颖的学习框架，结合属性级语义，句子级语义和强化学习来生成精确的时尚图片描述，同时构建了一个新的时尚图片描述数据集以证明模型的有效性。

Aug, 2020

利用联合服装匹配和评论生成进行可解释的服装推荐

本研究提出了一种新颖的神经网络框架 —— 神经装备推荐（NOR），旨在同时提供装备推荐和生成言简意赅的评论。实验表明，该框架在多任务学习框架的支持下，取得了显著的改进，并实现了对比于人工编写评论的令人印象深刻的 ROUGE 和 BLEU 分数。

Jun, 2018

FaD-VLP: 面向统一检索和说明的时尚视觉语言预训练

提出了一个基于三元组生成的时尚特定预训练框架和可同时执行时尚检索和字幕任务的灵活解码器模型设计，具有跨模态检索、图像检索、图像字幕和多模态分类等多种功能。

Oct, 2022

多模态服装设计师：基于人体中心的潜在扩散模型用于时尚图像编辑

本文介绍了一种基于 latent diffusion models 的新型架构，通过多模态提示（文本、人体姿势和服装草图）引导生成人体中心时尚图像，同时扩展了两个已有的时尚数据集，证明了该方法的有效性。

Apr, 2023

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

基于语言引导的时尚图像编辑与特征变换

本文提出了一种名为 FiLMedGAN 的基于自然语言表示的特征线性调制的方法，能够在仅使用少量空间信息的情况下对服装图像进行编辑和生成，相比于现有的基线工作，结合 skip connection 和 total variation regularization 方法，可以生成更为真实可信的效果，并在生成的新装与目标描述一致时具有更好的本地化能力。

Aug, 2018