Apr, 2023

DetCLIPv2: 通过词区对齐实现可伸缩的开放式目标检测预训练

TL;DR本文介绍了一种名为DetCLIPv2的训练框架,该框架采用大规模图像-文本对以实现开放词汇目标检测。DetCLIPv2直接从海量图像-文本对中学习了细粒度的单词-区域对齐,并通过融合来自检测、定位和图像-文本对数据的混合监督进行训练。DetCLIPv2采用交替方案和低分辨率输入有效地利用了图像-文本对数据,取得了超过之前工作的表现。