ACLMar, 2022

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

TL;DR通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型,使其具有多模态生成能力,实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。