Oct, 2022

在视觉对话中扩展短语引用以包含代词

TL;DR本文提出了一种新的跨模态视觉语言理解任务,此任务扩展了旧的名词短语 grounding 任务,加入了代词,并通过基于图卷积网络的指代消解信息来提高定位性能,实验结果表明,相比名词短语,代词定位更容易,模型表现也有显著提升。