ACTRESS:半监督视觉定位的主动重新训练
本文重新审视了 Johnson 等人于 2015 年提出的“使用场景图像检索单元进行图像检索”的图像 grounding 方法,发现该方法没有有效地使用其学习的物体-关系模型。同时,作者还研究了 IRSG 数据集和 VRD 数据集,并发现这些数据集存在偏差,容易让忽略关系的方法表现较好。作者通过对数据集进行子集处理等方法来解决这些问题,研究结果有助于更好地理解自然语言和视觉相结合的机器学习方法以及流行数据集测试的情况。
Apr, 2019
本文提出了一个基于可疑对象图和关键词感知节点表示的一阶视觉定位的方法,用于解决在一阶视觉定位中由于可疑对象的存在导致模型预测错误的问题,并在广泛的基准测试中展示了其有效性。
Mar, 2022
Attention Mask Consistency是一种基于边缘的损失函数,在视觉语言模型预训练中作用使得梯度基础的解释与区域级别注释保持一致,并且比依赖于明确训练对象检测器的区域级注释的模型产生更优秀的视觉定位性能。
Jun, 2022
本文提出了一种基于CLIP-VG的自我学习课程适应方法,通过利用伪语言标签来解决VG问题,以达到隐式知识利用和去噪。研究结果表明,该方法在单源和多源情况下都远优于现有的最先进的无监督VG方法Pseudo-Q,甚至优于现有的弱监督方法。
May, 2023
利用预训练的生成扩散模型直接应用于视觉定位的零阶视觉定位任务,以图文扩散模型为基础设计了一个全面的区域评分方法,证明了其在零阶视觉定位上的强大性能。
Sep, 2023
通过现有的图像-文本配对模型和纯物体检测数据,我们提出了一种名为GroundVLP的简单而有效的零样本方法,该方法结合了GradCAM热力图和开放词汇检测器的对象提案,用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战,实验结果显示该方法在RefCOCO/+/g数据集上超过了现有零样本方法的28%,并且在Flickr30k实体数据集上与一些非VLP的有监督模型表现相当甚至更好。
Dec, 2023
SynGround是一个结合数据驱动学习和知识传递的新框架,通过模型间的知识传递增强预训练的视觉语言模型的视觉定位能力,并通过合成图像和文本来提高模型性能,最终在多个数据集上展示出提升。
Mar, 2024
SegVG是一种新颖的方法,通过将边界框级别的注释转化为分割信号,为视觉定位任务提供了像素级别的监督。通过多层多任务编码器-解码器,我们学习了回归查询和多个分割查询,以在每个解码层中通过回归和分割来定位目标。通过三重对齐模块来减少域间差异,该模块使用三重注意机制来更新查询、文本和视觉特征,从而提升了目标定位性能。在五个广泛使用的数据集上进行的大量实验证实了我们的卓越性能。
Jul, 2024
本文介绍了一种名为AttBalance的新框架,通过优化语言相关区域内的视觉特征行为,以提高视觉定位任务的性能,并在四个不同基准测试上对五种不同模型进行了评估和持续改进,进而在QRNet上实现了最新的表现水平。
Jul, 2024
本研究针对现有方法在多实例干扰下准确定位目标物体的挑战,提出了一种新的关系和语义敏感视觉定位模型(ResVG)。该模型通过注入来自文本查询的语义先验信息和实施关系敏感的数据增强方法,显著提高了对物体语义与空间关系的理解,从而在视觉定位任务中取得了更好的性能表现。
Aug, 2024