May, 2024

RTGen:为开放词汇物体检测生成区域文本对

TL;DR通过生成可扩展的开放词汇区域 - 文本对,RTGen 能够提高开放词汇物体检测的性能,其中文本到区域的生成是通过图像修复以及布局引导来实现的,区域到文本的生成则是通过基于多个提示进行区域级别图像字幕并根据 CLIP 相似性选择最佳匹配文本完成的,并且引入了适应不同定位质量的定位感知区域 - 文本对比损失用于侦测训练。大量实验证明 RTGen 作为可扩展、语义丰富和高效的来源,能够在利用更多数据时持续提高模型性能,并且相较于现有最优方法能够提供卓越性能。