Jul, 2024

SegVG:将物体边界框转化为分割图像以进行视觉对齐

TL;DRSegVG是一种新颖的方法,通过将边界框级别的注释转化为分割信号,为视觉定位任务提供了像素级别的监督。通过多层多任务编码器-解码器,我们学习了回归查询和多个分割查询,以在每个解码层中通过回归和分割来定位目标。通过三重对齐模块来减少域间差异,该模块使用三重注意机制来更新查询、文本和视觉特征,从而提升了目标定位性能。在五个广泛使用的数据集上进行的大量实验证实了我们的卓越性能。