Dec, 2021

RegionCLIP: 基于区域的语言-图像预训练

TL;DRRegionCLIP是一种新的方法,扩展了CLIP模型的范围,使其可以学习区域级别的视觉表征,从而实现图像区域和文本概念之间的细粒度对齐,进而在目标检测领域表现出良好的性能。