EMNLPOct, 2022

FaD-VLP: 面向统一检索和说明的时尚视觉语言预训练

TL;DR提出了一个基于三元组生成的时尚特定预训练框架和可同时执行时尚检索和字幕任务的灵活解码器模型设计,具有跨模态检索、图像检索、图像字幕和多模态分类等多种功能。