CVPRMar, 2021

Kaleido-BERT:时尚领域视觉 - 语言预训练

TL;DRKaleido-BERT 是一种新型的视觉 - 语言预训练模型,采用对齐引导的遮盖策略和五项自监督任务进行 VL 预训练,实现了更好的图像 - 文本语义关系表示,并在四个下游任务上实现了领先的性能,特别是时装图像标注任务上,展示了其在实际应用中的广泛潜力。