Jan, 2020

ImageBERT:利用大规模弱监督图像 - 文本数据的跨模态预训练

TL;DR本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT,用于图像 - 文本联合嵌入,该模型基于 Transformer,可以将不同的模态作为输入,并建模它们之间的关系。通过多阶段的预训练策略,可以提高预训练质量,最终在图像检索和文本检索任务上获得了新的最先进结果。