Aug, 2024

ResVG:增强多实例视觉定位中的关系和语义理解

TL;DR本研究针对现有方法在多实例干扰下准确定位目标物体的挑战,提出了一种新的关系和语义敏感视觉定位模型(ResVG)。该模型通过注入来自文本查询的语义先验信息和实施关系敏感的数据增强方法,显著提高了对物体语义与空间关系的理解,从而在视觉定位任务中取得了更好的性能表现。