Oct, 2022

时尚领域的遮蔽视觉语言变压器

TL;DR设计一种面向时尚领域的多模式表达模型,使用视觉转换器架构代替预训练模型BERT,实现端到端框架,并使用遮蔽图像重构实现对时尚领域的细粒度理解。该模型没有使用额外的预处理模型(如ResNet),能轻松推广到各种匹配和生成任务中,并得到了提取(rank@5: 17%)和识别(准确度: 3%)任务结果的明显改进。