May, 2017
通过将图像嵌入文本主题空间进行自监督的视觉特征学习
Self-supervised learning of visual features through embedding images
into text topic spaces
TL;DR本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法,通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模,训练卷积神经网络来预测图像最可能出现为插图的语义上下文,有效地学习了区分性视觉特征,其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。