BriefGPT.xyz
Oct, 2022
时尚领域的遮蔽视觉语言变压器
Masked Vision-Language Transformer in Fashion
HTML
PDF
Ge-Peng Ji, Mingcheng Zhuge, Dehong Gao, Deng-Ping Fan, Christos Sakaridis...
TL;DR
设计一种面向时尚领域的多模式表达模型,使用视觉转换器架构代替预训练模型BERT,实现端到端框架,并使用遮蔽图像重构实现对时尚领域的细粒度理解。该模型没有使用额外的预处理模型(如ResNet),能轻松推广到各种匹配和生成任务中,并得到了提取(rank@5: 17%)和识别(准确度: 3%)任务结果的明显改进。
Abstract
We present a
masked vision-language transformer
(MVLT) for
fashion-specific
multi-modal representation
. Technically, we simply utilize vis
→