ICCVAug, 2021

LocTex: 从本地文本监督中学习数据高效视觉表征

TL;DR本文提出了一种名为 LocTex 的计算机视觉方法,它利用了低成本的本地化文本标注和鼠标轨迹,通过对图像和标题的对比预训练和监督跨模态关注图,从而提供粗略的本地化信号,从而减少标注数据的数量。它学习到的视觉特征可以捕捉自由形式的标题的丰富语义和鼠标轨迹的准确本地化,可以转移到各种下游视觉任务中,并且比 ImageNet 的监督预训练方法可以将预训练数据集的大小缩小 10 倍或目标数据集的大小缩小 2 倍,同时在 COCO 实例分割上实现可比较甚至更高的性能。在拥有相同数量的注释的情况下,LocTex 在 PASCAL VOC 图像分类任务上比以前最先进的 “视觉 + 语言” 预训练方法提高了约 4% 的准确性。