Jun, 2023

读取、查看和检测:从图像-标题对中标注边界框

TL;DR本文提出一种使用图像标题对来进行弱监督的目标检测和短语定位的方法,并利用视觉语言(VL)模型和自监督视觉变压器(ViTs)进行实验,取得了较好的结果。