Aug, 2022

PPMN:像素短语匹配网络用于单阶段全景叙事 grounding

TL;DR该研究提出了一种端到端的Pixel-Phrase匹配网络(PPMN),通过密集标注的像素-短语对而非稀疏的区域-短语对进行训练,以直接匹配每个短语与其对应的像素,并将它们简单组合以输出全景分割,同时也开发了一种 Language-Compatible Pixel Aggregation(LCPA)模块来进一步提高短语特征的区分能力,该方法在PNG基准测试中实现了新的最高性能。