Mar, 2020

InterBERT:多模态预训练中的视觉 - 语言交互

TL;DR该论文提出了一种基于多模态预训练的新型模型 InterBERT,通过预训练的方式实现了多个任务,包括掩码片段建模、掩码区域建模和图像与文本匹配,并在视觉和语言下游任务上进行了 fine-tuning,最终实现了基于主题的推荐和基于文本的图像检索。