Mar, 2020
InterBERT:多模态预训练中的视觉 - 语言交互
InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining
Junyang Lin, An Yang, Yichang Zhang, Jie Liu, Jingren Zhou...
TL;DR该论文提出了一种基于多模态预训练的新型模型 InterBERT,通过预训练的方式实现了多个任务,包括掩码片段建模、掩码区域建模和图像与文本匹配,并在视觉和语言下游任务上进行了 fine-tuning,最终实现了基于主题的推荐和基于文本的图像检索。