AAAIDec, 2023

零样本自然语言视频定位中的常识

TL;DR本文研究了零样本自然语言视频定位(NLVL)中常识推理的有效性,并提出了一个名为 CORONET 的零样本 NLVL 框架,利用常识知识图谱,通过常识增强模块来弥合视频和生成的伪查询之间的差距。通过对两个基准数据集的实证评估,证明 CORONET 超过了零样本和弱监督的基准,不同召回阈值下的改进幅度高达 32.13%,在 mIoU 方面的改进幅度高达 6.33%,突出了利用常识推理进行零样本 NLVL 的重要性。