Jan, 2023

基于端到端网络的实时全景叙事性 grounding

TL;DR本研究提出了一种用于实时PNG的单阶段网络,名为端到端全景叙事接地网(EPNG),通过将两个创新设计:局部感知关注(LPA)和双向语义对齐损失(SAL),用于处理文本表达式和视觉对象之间复杂的多对多关系,从而直接生成指示物的掩模,以及提高分段结果和语义一致性的泛化能力。