Apr, 2021

先斩后奏:一阶段视觉定位中学习地标特征

TL;DR提出了一种 LBYL(“先看再跳”)网络,用于端到端可训练的单阶段视觉定位,其核心是地标特征卷积模块,以指导语言描述的方式传递视觉特征,并结合与目标的上下文信息进行定位,实验结果表明,LBYL-Net 在 ReferitGame 上优于所有现有的两阶段和一阶段方法,在 RefCOCO 和 RefCOCO + 上的表现也与现有的一阶段方法相当甚至更好。