WWWNov, 2022

CapEnrich: 通过跨模态预训练知识为 Web 图像增加标题语义

TL;DR本文提出了一种基于 Vision-Language Pre-training 模型的插拔式框架 CapEnrich,通过自动数据构建策略和可学习 / 模板提示策略,为万维网上的无标签图片生成更加完整,丰富和具备语义的文本描述,从而将其应用于多模态检索和推荐等实际应用中。