Feb, 2020

通过预测视觉单词包学习表征

TL;DR本文提出了一种基于视觉词汇的自监督学习方法,通过将图像特征映射量化为视觉词汇,实现了对图像的分离表示,通过Bag-of-Words表示学习有用的下游图像理解特征,与类似自然语言领域的方法相比,该方法在目标检测和分类上表现出更好的迁移能力。