Jan, 2020
ImageBERT:利用大规模弱监督图像 - 文本数据的跨模态预训练
ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data
Di Qi, Lin Su, Jia Song, Edward Cui, Taroon Bharti...
TL;DR本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT,用于图像 - 文本联合嵌入,该模型基于 Transformer,可以将不同的模态作为输入,并建模它们之间的关系。通过多阶段的预训练策略,可以提高预训练质量,最终在图像检索和文本检索任务上获得了新的最先进结果。