Nov, 2023

通过像素和物体背景来丰富短语以用于全景叙事引导

TL;DR通过设计Phrase-Pixel-Object Transformer Decoder(PPO-TD)来丰富与像素和物体上下文相关的短语特征,并提出Phrase-Object Contrastive Loss(POCL)从短语相关的物体标记中聚合更精确的物体上下文,这使得我们的方法在Panoptic narrative grounding基准测试中取得了新的最先进性能。