Jan, 2019

基于网络数据的自监督学习在多模态检索中的应用

TL;DR通过利用 Web 和 Social Media 数据,本文提出一种利用多模态图像和文本嵌入的自监督学习方法,在不需要人工注释的情况下学习强大的特征,并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法,表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能,且在训练目标数据时优于最先进方法。最后,介绍了 InstaCities1M 数据集,并演示了如何利用该数据集进行语义多模态图像检索。