ECCVJul, 2022

FashionViL:面向时尚的视觉与语言表征学习

TL;DR本文提出了 FashionViL,一个针对时尚领域的视觉语言(V+L)表征学习框架,包含两个周到设计的预训练任务:多视角对比学习和伪属性分类学习,以及一个基于 Transformer 的灵活多用途模型架构,将其广泛适用于各种 V+L 任务,并在 5 个下游任务上取得了最佳成果。