EMNLPOct, 2022
FaD-VLP: 面向统一检索和说明的时尚视觉语言预训练
FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning
Suvir Mirchandani, Licheng Yu, Mengjiao Wang, Animesh Sinha, Wenwen Jiang...
TL;DR提出了一个基于三元组生成的时尚特定预训练框架和可同时执行时尚检索和字幕任务的灵活解码器模型设计,具有跨模态检索、图像检索、图像字幕和多模态分类等多种功能。